Иллюзия мышления: Почему «думающие» модели на самом деле не думают (и что об этом говорит новое исследование Apple) / Хабр

Сегодня хочу погрузиться в одну из самых горячих тем в мире ИИ. Вы наверняка слышали про новое поколение языковых моделей — OpenAI o3 pro, Claude 4 Sonnet Thinking, Deepseek R1 и другие. Их называют «рассуждающими моделями» (Large Reasoning Models, LRM), и они обещают не просто отвечать на вопросы, а показывать весь свой «мыслительный процесс», шаг за шагом разбирая задачу. Звучит как прорыв, правда? Почти как зарождение настоящего искусственного разума.

Но что, если я скажу вам, что это может быть лишь очень убедительной иллюзией?

Я наткнулся на свежее и, честно говоря, отрезвляющее исследование под дерзким названием «Иллюзия мышления» от группы инженеров из Apple. Они решили не верить на слово громким анонсам и копнуть глубже. Вместо того чтобы гонять модели по стандартным тестам, они создали для них настоящий «интеллектуальный спортзал» с головоломками. И то, что они обнаружили, ставит под сомнение саму природу «мышления» этих систем.

Давайте разберемся вместе, что же там произошло.

Почему тесты по математике — плохая линейка

Прежде всего, нужно понять, почему исследователи вообще усомнились в стандартных бенчмарках. Большинство моделей тестируют на математических и кодовых задачах. Проблема в том, что интернет завален решениями этих задач. Модель, как прилежный, но не очень сообразительный студент, могла просто «зазубрить» миллионы примеров во время обучения. Это называется загрязнением данных (data contamination), и следующие результаты по математическим тестам это хорошо иллюстрируют.

Pasted image 20250616192539.png — Сравнительный анализ reasoning и non-reasoning моделей в различных математических бенчмарках выявляет несогласованные паттерны производительности. В то время как результаты на наборе данных MATH-500 показывают сопоставимую производительность между обоими типами моделей, reasoning модели демонстрируют превосходную производительность на бенчмарках AIME24 и AIME25. Кроме того, наблюдаемое снижение производительности от AIME24 к AIME25 подчеркивает уязвимость этих бенчмарков к проблемам загрязнения данных.

Как проверить, действительно ли студент понимает физику, а не просто выучил формулы? Нужно дать ему задачу, которую он никогда раньше не видел.

Именно это и сделали в Apple. Они взяли четыре классические головоломки:

Ханойская башня (Tower of Hanoi): Головоломка с тремя стержнями и набором дисков разного размера. Цель — переместить все диски с первого стержня на третий. Перемещать можно только один диск за раз, брать только верхний диск и никогда не класть больший диск на меньший.
Прыгающие шашки (Checker Jumping): Одномерная головоломка, в которой в ряд расположены красные, синие шашки и одно пустое место. Задача — поменять местами все красные и синие шашки. Шашку можно сдвинуть на соседнее пустое место или перепрыгнуть через одну шашку другого цвета на пустое место. Движение назад запрещено.
Переправа через реку (River Crossing): Головоломка, в которой n актеров и их n агентов должны пересечь реку на лодке. Цель — перевезти всех с левого берега на правый. Лодка имеет ограниченную вместимость и не может плыть пустой. Актер не может находиться в присутствии другого агента без своего собственного. Аналог наших "Волк, коза и капуста".
Мир блоков (Blocks World): Головоломка со стопками блоков, которые нужно переставить из начального положения в целевое. Задача — найти минимальное количество ходов для этого. Перемещать можно только самый верхний блок в любой стопке, помещая его либо на пустое место, либо на другой блок.

Pasted image 20250616185719.png — Иллюстрация четырех сред-головоломок. Колонки показывают прогрессию от начального состояния (сверху) через промежуточное состояние (посередине) к целевому состоянию (снизу) для головоломок: Ханойская башня, Прыгающие шашки, Переправа через реку и Мир блоков.

Прелесть этих головоломок в том, что их сложность можно очень точно контролировать, просто меняя количество элементов (дисков, шашек, кубиков). При этом логика решения остается той же. Это идеальная среда, чтобы увидеть, где у модели ломается «рассуждалка».

Три режима сложности: от гения до полного провала

Прогнав через эти головоломки «думающие» модели и их обычные, «не думающие» аналоги (например, Claude 3.7 Sonnet Thinking vs. Claude 3.7 Sonnet), исследователи обнаружили четкую и повторяемую картину, которую можно разделить на три режима.

1. Режим низкой сложности: желтая зона На простых задачах, где нужно сделать всего несколько ходов, обычные модели справлялись так же хорошо, а иногда и лучше, чем их «думающие» собратья. При этом они тратили гораздо меньше вычислительных ресурсов. По сути, заставлять reasoning модель решать простую задачу — это почти как использовать суперкомпьютер для сложения 2+2. «Мыслительный процесс» здесь — избыточная роскошь, которая только замедляет работу.

2. Режим средней сложности: голубая зона Вот здесь-то «думающие» модели и начинали блистать. Когда задача становилась достаточно запутанной, способность генерировать длинную цепочку рассуждений, проверять гипотезы и исправлять себя давала им явное преимущество. Разрыв в точности между reasoning и non-reasoning версиями становился значительным. Казалось бы, вот оно — доказательство!

3. Режим высокой сложности: красная зона Но триумф был недолгим. Как только сложность головоломки перешагивала определенный порог, происходило нечто поразительное: производительность обеих моделей падала до нуля. Полный коллапс.

Pasted image 20250616190039.png — Слева и посередине: При низкой сложности non-reasoning модели более точны и эффективны по расходу токенов. По мере увеличения сложности reasoning модели превосходят их, но требуют больше токенов — пока обе не коллапсируют за критическим порогом. Внизу справа: В случае правильно решенных задач Claude 3.7 Thinking, как правило, находит ответы рано при низкой сложности и позже при более высокой сложности. В случае неудач он часто фиксируется на раннем неправильном ответе, растрачивая оставшийся бюджет токенов. Оба случая выявляют неэффективность в процессе рассуждений.

Pasted image 20250616193421.png — Точность reasoning моделей (Claude 3.7 Sonnet Thinking, DeepSeek-R1) по сравнению с их non-reasoning аналогами (Claude 3.7 Sonnet, DeepSeek-V3) во всех средах-головоломках и при различных уровнях сложности задач.

Pasted image 20250616193507.png — Производительность Pass@k reasoning по сравнению с non-reasoning моделями при эквивалентных вычислительных бюджетах в средах-головоломках низкой, средней и высокой сложности. Non-reasoning модели показывают превосходные результаты в простых задачах, reasoning модели демонстрируют преимущества при средней сложности, тогда как оба подхода терпят неудачу при высокой сложности независимо от выделения вычислительных ресурсов.

Да, «думающие» модели держались чуть дольше и сдавались на несколько шагов позже. Но в конечном итоге они упирались в ту же самую фундаментальную стену. Их способность к рассуждению не была по-настоящему обобщаемой. Она просто отодвигала неизбежный провал.

Парадокс сдающегося разума

Но самое странное и контринтуитивное открытие ждало исследователей, когда они посмотрели, сколько модель «думает» в зависимости от сложности. Логично предположить, что чем сложнее задача, тем больше усилий (токенов мышления) модель должна на нее потратить.

И поначалу так и было. С ростом сложности росло и количество «размышлений». Но ровно до той точки, где начинался коллапс. Приближаясь к критической сложности, модели вели себя парадоксально: они начинали сокращать свои усилия, что прекрасно видно на графике.

Pasted image 20250616193754.png — Точность и токены рассуждения в зависимости от сложности задачи для reasoning моделей в различных средах-головоломок. По мере увеличения сложности, reasoning модели изначально расходуют больше токенов, в то время как точность постепенно снижается, до критической точки, где рассуждение коллапсирует — производительность резко падает, а усилия на рассуждение снижаются.

Представьте студента на экзамене, который, увидев слишком сложную задачу, не пытается исписать несколько страниц черновика, а просто смотрит на нее пару секунд и сдает пустой лист. При этом у него есть и время, и бумага. Модели, имея огромный запас по длине генерации, просто переставали пытаться.

Это указывает на фундаментальное ограничение их архитектуры. Это не просто нехватка знаний, а некий встроенный предел масштабирования мыслительных усилий.

Два гвоздя в крышку гроба «чистого разума»

Если предыдущие пункты еще оставляли пространство для интерпретаций, то следующие два вывода выглядят как приговор идее о том, что LRM действительно «понимают» логику.

1. Неумение следовать инструкциям Это, пожалуй, самый убийственный аргумент. Исследователи провели эксперимент с Ханойской башней, в котором они дали модели точный пошаговый алгоритм решения прямо в промпте. От модели требовалось лишь одно — тупо следовать инструкциям.

Результат? Никакого улучшения. Модель проваливалась ровно на том же уровне сложности, что и без подсказки. Это можно сравнить с человеком, которому дали подробнейшую инструкцию по сборке шкафа из IKEA, а он все равно не может его собрать. Такое поведение говорит о том, что он не читает и не выполняет шаги, а пытается по памяти или по картинке воссоздать то, что видел раньше. Похоже, модель не выполняет алгоритм, а пытается распознать знакомый паттерн.

2. Странная избирательность Анализ показал еще одну интересную вещь. Модель Claude 3.7 Sonnet Thinking могла с почти идеальной точностью решить Ханойскую башню на 5 дисков (это 31 ход), но полностью проваливала задачу о Переправе через реку для 3 пар (всего 11 ходов).

Почему так? Вероятный ответ — снова в данных для обучения. Примеров решения Ханойской башни в интернете полно. А вот сложных вариантов Переправы через реку — гораздо меньше. Модель сильна в том, что она «видела» много раз, и слаба в том, что для нее в новинку, даже если логически задача проще.

Pasted image 20250616194022.png — **(a) и (b)** Несмотря на предоставление алгоритма решения в промпте, сбои выполнения наблюдаются в схожих точках, что подчеркивает ограничения моделей рассуждения в выполнении логических шагов. **(c) и (d)** Примечательно, что модель Claude 3.7 Sonnet демонстрирует значительно более длинные безошибочные последовательности в Ханойской башне по сравнению с ранними ошибками в сценарии Переправы через реку.

Но история на этом не закончилась. Ответный удар от создателей Claude

Казалось бы, выводы ясны: «думающие» модели — это очень продвинутая, но все же иллюзия. Я уже почти дописал эту статью, когда, как в хорошем детективе, на сцену вышел новый свидетель, который перевернул все дело. В виде ответной публикации под дерзким названием «Иллюзия иллюзии мышления» на арену вышли исследователи из Anthropic (создатели Claude) и Open Philanthropy.

Это не просто комментарий, это полный разгром. Суть их ответа проста и беспощадна: выводы Apple говорят не о фундаментальных ограничениях моделей, а о фундаментальных ошибках в дизайне самого эксперимента. Давайте посмотрим, как они разбирают аргументы Apple по косточкам.

1. Первый гвоздь в гроб «коллапса рассуждений»: закончилась бумага, а не мысли. Помните идею, что модели «сдавались» на сложных задачах? Anthropic утверждают: модели не сдавались, они просто упирались в лимит токенов. Это не студент, который бросил решать задачу, а студент, которому дали всего один лист бумаги. Когда он заканчивается, он пишет «и так далее» и сдает работу. Модели делали то же самое, буквально сообщая в своих ответах: "Паттерн продолжается, но чтобы не делать ответ слишком длинным, я остановлюсь здесь". Автоматический тест Apple, не умея читать такие нюансы, засчитывал это как провал.

2. Второй выстрел: драма с нерешаемой задачей. А вот тут начинается настоящая детективная история. Исследователи из Anthropic проверили условия задачи о Переправе через реку и обнаружили, что для 6 и более пар акторов/агентов при вместимости лодки в 3 человека она математически нерешаема. Это известный факт, подтвержденный другим исследованием. Получается, Apple на полном серьезе ставили моделям «неуд» за то, что те не смогли решить нерешаемую задачу. Это всё равно что наказать калькулятор за то, что он выдал ошибку при делении на ноль.

3. И, наконец, контрольный в голову: попросите рецепт, а не нарезку. Чтобы окончательно доказать свою правоту, команда Anthropic изменила сам вопрос. Вместо того чтобы требовать от модели выдать тысячи ходов для Ханойской башни, они попросили ее написать программу (функцию на Lua), которая генерирует решение. И — бинго! — модели, ��оторые якобы «коллапсировали», с легкостью написали идеальный рекурсивный алгоритм. Apple, по сути, тестировали механическую выносливость модели, заставляя ее «нарезать овощи» для огромного банкета. Anthropic же проверили знание процесса, попросив «написать рецепт». И модель его знала.

Так кто же прав? Иллюзия мышления или иллюзия оценки?

Этот ответный удар полностью меняет расстановку сил. Теперь выводы Apple выглядят не как открытие фундаментального порока ИИ, а как демонстрация классической ловушки для исследователя, в которую легко угодить, если не проверять свои же исходные данные.

Получается, та самая «стена сложности», в которую упирались модели, была построена не ими, а самими экспериментаторами через искусственные ограничения и невыполнимые условия.

Едкий, но справедливый вердикт от Anthropic подводит итог всей этой истории: «Вопрос не в том, могут ли модели рассуждать, а в том, могут ли наши тесты отличить рассуждение от печатания».

Эта история — отличное напоминание, что в мире ИИ нужно сомневаться не только в ответах машин, но и в собственных вопросах. Я уверен, что многие из нас сталкивались с этим в своей практике. Иногда кажется, что модель «тупит», а на самом деле мы просто задали вопрос так, что она не может дать хороший ответ в рамках поставленных ограничений.

Что вы думаете об этом споре? Чьи аргументы вам кажутся более убедительными? Были ли у вас случаи, когда вы сами неправильно оценивали возможности ИИ просто потому, что «тест» был составлен некорректно?

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале.

Иллюзия мышления: Почему «думающие» модели на самом деле не думают (и что об этом говорит новое исследование Apple)