Как стать автором
Обновить

Комментарии 3

Можете уточнить, что вы имели ввиду под этим: LLM сталкиваются с интересным парадоксом: их контекстные окна продолжают расти, позволяя им обрабатывать больше информации одновременно, но надежная обработка всех этих данных остается проблемой

Вы имели ввиду, что с ростом размерности матриц W трансформера в LLM они все равно порой выдают галлюцинации? Или я не правильно вас понял?

Просто увеличение размеров матриц весов W ни как не должно влиять на точность. Не совсем понимаю откуда взялась такая идея. Они же находят признаки и связи между ними, и влияют только на это.

То что называют контекстным окном и матрицами внимания, что ужасно злит так как это модулирующие матрицы глобального и локального контекста. А сами галлюцинации прежде всего связаны с обобщением информации. Так как в трансформерах в LLM все обобщение сводится к FFN. Что из-за отсутствия механизма управления обобщением, приводит к необходимости случайного выбора выходного токена в рамках выходного Softmax. И увеличением размера весовых матриц W это не решается. Хоть их размер будет триллион, просто смогут найти более сложные признаки.

Как я понимаю, тут все же речь про другие ограничения. KBLaM если я правильно понял, добавляет к стандартному токену ещё свой сигнал. Но честно пока не понял, что это даёт. Почему это должно что то решать в данном случае. В целом как то скудно с информацией как в статье, так и на GitHub. Жаль что вы не описали главный смысл работы KBLaM, что конкретно он делает и почему это должно работать. В чем его идея и как реализована.

Видимо придется лезть разбираться. Но деталей очень не хватает.

Ого, прямо как в моей презентации в KAIST двухгодичной давности.

Вот и представьте себе уровень KAIST и еще пары ведущих универов вроде TokyoTech или Пекина.

Видимо, лидеры технократических элит из в этих ВУЗов не смогли устроиться в Microsoft :)

А теперь представьте уровень наших фирм, куда пишут "какие-то идиоты со своими БД знаний" (AlberBlanc, Wunder Fund, ну и эти, FaceBeatyfication за 7к$).

При этом БД знаний приходят позже, из Microsoft, и рассматриваются как Дар Божий :)

Мы вам даже не ответим. Вы даже не представляете какой у нас уровень!
Мы вам даже не ответим. Вы даже не представляете какой у нас уровень!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий