Обновить

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Уровень сложностиСложный
Время на прочтение4 мин
Охват и читатели6.1K
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Комментарии 2

Так и не понял, а другие то ллм как складывают?

1)llm при грубом приближении - набор вероятностей, а вы пытаетесь заставить ее решить точную задачу. Может у более сложных llm сложение каких-нибудь небольших чисел отработало нормально, потому что вероятность этого ответа была достаточно большой.
2)читал в книге, что подобные ошибки из-за того, что модели работают с токенами. Т.е. у вас модель видит не "14+35=", а например, "14", "+3" и "5=" (токены), которые могут быть интерпретированы как угодно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации