Comments 11
У LLM нет никакого "мышления".. есть алгоритм вычисления наиболее вероятного следуюзего в тексте слова.
А у вас?
Человеческий мозг предсказывает следующее слово в речи, и это похоже на то, как работают большие языковые модели.
Участникам давали слушать аудиокнигу, параллельно записывали EEG и MEG.
Предсказуемость слов оценивалась с помощью BERT.
Результаты:
Чем предсказуемее слово, тем меньше усилий мозг тратит на его обработку.
Перед появлением ожидаемого слова в мозге уже была предварительная активация в зонах речи.
Для неожиданных слов подключались более широкие области, включая сенсомоторные.
Вывод: мозг использует predictive coding — заранее прогнозирует слова и снижает когнитивную нагрузку, если прогноз совпадает с реальностью. Это связывает нейрофизиологию человека и работу LLM, которые тоже делают предсказание следующего слова.
Мозг и LLM действительно оба "предсказывают следующее слово", но на этом сходство заканчивается. У мозга это часть predictive coding - всеобъемлющей нейрофизиологической стратегии: он строит внутреннюю модель мира, чтобы экономить ресурсы. Мало активируется в тот момент, если прогноз совпадает с реальностью. Это не просто предсказание текста - это прогноз звука, смысла, эмоции, последствий. LLM же делает лишь статистическую аппроксимацию на основе контекста, без понимания, цели или модели реальности. Он не "экономит усилия", не "удивляется", не перестраивает картину мира, а просто генерирует наиболее вероятный токен.
Сравнивать их - это всё равно что сказать: "человек и камера видят лицо - значит, восприятие устроено одинаково". Формально - да, оба фиксируют образ, но по сути - нет. Один понимает, кто перед ним, другой - сопоставляет пиксели. Так и здесь, сходство в поведении не означает общность механизма. Мозг предсказывает, чтобы жить эффективнее, LLM - чтобы выдать правдоподобный ответ.
Ошибка исследования в редукции сложной когнитивной теории к поверхностному эффекту. Да, нейрофизиология подтверждает предсказательную природу восприятия. Но из этого нельзя выводить, что LLM работает как мозг. Он может имитировать один аспект, но не воспроизводит ни целостности, ни смысла, ни адаптивной цели. Это не аналогия - это ложная эквивалентность на уровне формы без учёта сути.
Но из этого нельзя выводить, что LLM работает как мозг.
Насколько понимаю, никто этого в здравом уме и не утверждает. Копья ломаются на тему авторегрессионной модели, что сам факт того что модель (или мозг) "предсказывают следующее слово", якобы доказывает их неспособность к интеллектуальной деятельности.
Когда человек говорит слово, оно не появляется просто так, оно - конец длинной цепочки мыслей. Сначала возникает намерение: хочется что-то объяснить, спросить, поделиться чувством. Потом формируется смысловая картина: "что именно я хочу сказать". Это может быть образ, эмоция или логическая связь и всё это ещё без слов. Только потом мозг подбирает подходящие слова, строит фразу и произносит её. Слово здесь не цель, а инструмент.
В LLM же всё устроено наоборот. Там нет намерения, нет внутреннего опыта, нет желания донести смысл. У модели есть только один механизм - предсказать, какое слово наиболее вероятно после предыдущих. Она не "думает, чтобы сказать", она "говорит, потому что так написано в данных". Её слова рождаются не из мысли, а из статистики, как продолжение текстового паттерна, выученного на "триллионах" примеров. Даже в задачах, где кажется, что модель "понимает" другого, например, в тестах на Theory of Mind (ToM), то она не строит модель чужих убеждений, а воспроизводит шаблоны.
LLM показывают высокие результаты в некоторых (!) ToM-задачах. Но это не "понимание", а статистическая интерполяция. Как показано в анализе трансформеров, их ответы меняются при "перефразировке", они не "обобщают" новые сценарии и не могут модифицировать модель при конфликте с ожиданием, что является сутью когнитивного процесса.
На конференции "CogSci 2024" Сакс представила исследование, сравнивающее детей, взрослых и LLM в задачах на "false belief" с "новыми, нестандартными сюжетами". Она показала: "Где дети 4–5 лет справляются с обобщением с первого раза, там LLM проваливаются, если сценарий не совпадает с обучающими данными.". В этом году, MIT представил отчет, что ни одна LLM не прошла ToM. Максимальный результат - 46 ед. и это "стандартные" вопросы.
Поэтому, сравнивать эти процессы - это всё равно что сравнивать живую речь и запись автоответчика. Да, оба воспроизводят звуки. Но одно - проявление сознания, другое - реакция на сигнал. Мозг предсказывает слова, потому что "понимает мир" и "хочет общаться". LLM - потому что обучена на больших данных. Разница не в результате, а в источнике: один процесс начинается с мысли, то другой - с токенов. И пока существует пропасть между смыслом и статистикой, то говорить о единой природе интеллекта, как минимум - преждевременно.
Когда человек говорит слово, оно не появляется просто так, оно - конец длинной цепочки мыслей. Сначала возникает намерение: хочется что-то объяснить, спросить, поделиться чувством. Потом формируется смысловая картина: "что именно я хочу сказать". Это может быть образ, эмоция или логическая связь и всё это ещё без слов. Только потом мозг подбирает подходящие слова, строит фразу и произносит её. Слово здесь не цель, а инструмент.
А вы уверены что модель не формирует смысловую картину того что она пишет, до того как облечь её в словесную форму? По-моему, совершенно очевидно что формирует, иначе бы она выдавала бессмыслицу. То как это переводится в текст не играет особой роли, это может быть и "предсказание вероятности следующего слова" и, например, диффузионная модель. Так же как и человек, который может одну и ту же мысль сказать голосом, написать на бумаге или показать жестами.
Человек может выразить одну мысль голосом, жестом или текстом, так как мысль первична. LLM может использовать разные архитектуры: автогрегрессию или диффузию, но везде токены первичны.
И пока это так, говорить о равнозначных формах выражения одной "мысли", значит путать форму с содержанием.
Так и про человека можно то же самое сказать, первична не мысль а электросигналы в мозгу. Доказать что нейросеть в этом плане принципиально отличается от человека достаточно легко - привести в пример класс задач которые решаются человеком и не решаются нейросетями никак. Причём никак - это вообще никак, а не "хуже на 20% чем лучшие профессионалы из людей".
Сравнивать электросигналы в мозге и токены в нейросети, всё равно что сравнивать удар молотком по гвоздю и мыслить о строительстве дома. Да, оба события требуют энергии и происходят во времени. Но одно - следствие намерения, другое - его имитация.
У человека мысль, онтологически, первична, даже если она реализована через электрохимию. Она "организует" эти процесы вокруг смысла, цели, контекста. У LLM - токен первичен и все "картины", "логика", "понимание" - это производные от последовательности символов, а не наоборот. Модель не может хотеть сказать, она может только продолжить.
Если оставаться в рамках материализма, нет, мысль не первична. Это результат процессов в мозгу, на основе входных данных от органов чувств.
"Хотеть" сказать, да, модель не может, потому что её этому не обучали. Скорее всего это и к лучшему. Желания, эмоции и прочее свойственны и животным, это не признак интеллекта.
"Обучение, шмобучение... Это просто мешок слов предсказывающий следующий токен!" /s
Как обучение с подкреплением перестраивает мышление LLM