Комментарии 3
Можете уточнить, что вы имели ввиду под этим: LLM сталкиваются с интересным парадоксом: их контекстные окна продолжают расти, позволяя им обрабатывать больше информации одновременно, но надежная обработка всех этих данных остается проблемой
Вы имели ввиду, что с ростом размерности матриц W трансформера в LLM они все равно порой выдают галлюцинации? Или я не правильно вас понял?
Просто увеличение размеров матриц весов W ни как не должно влиять на точность. Не совсем понимаю откуда взялась такая идея. Они же находят признаки и связи между ними, и влияют только на это.
То что называют контекстным окном и матрицами внимания, что ужасно злит так как это модулирующие матрицы глобального и локального контекста. А сами галлюцинации прежде всего связаны с обобщением информации. Так как в трансформерах в LLM все обобщение сводится к FFN. Что из-за отсутствия механизма управления обобщением, приводит к необходимости случайного выбора выходного токена в рамках выходного Softmax. И увеличением размера весовых матриц W это не решается. Хоть их размер будет триллион, просто смогут найти более сложные признаки.
Как я понимаю, тут все же речь про другие ограничения. KBLaM если я правильно понял, добавляет к стандартному токену ещё свой сигнал. Но честно пока не понял, что это даёт. Почему это должно что то решать в данном случае. В целом как то скудно с информацией как в статье, так и на GitHub. Жаль что вы не описали главный смысл работы KBLaM, что конкретно он делает и почему это должно работать. В чем его идея и как реализована.
Видимо придется лезть разбираться. Но деталей очень не хватает.
Ого, прямо как в моей презентации в KAIST двухгодичной давности.
Вот и представьте себе уровень KAIST и еще пары ведущих универов вроде TokyoTech или Пекина.
Видимо, лидеры технократических элит из в этих ВУЗов не смогли устроиться в Microsoft :)
А теперь представьте уровень наших фирм, куда пишут "какие-то идиоты со своими БД знаний" (AlberBlanc, Wunder Fund, ну и эти, FaceBeatyfication за 7к$).
При этом БД знаний приходят позже, из Microsoft, и рассматриваются как Дар Божий :)

Microsoft Research разработала новый способ включения знаний в LLM