Команда Apple протестировала ведущие модели в классических логических головоломках, таких как Ханойская башня, и обнаружила, что даже продвинутым системам по-прежнему трудно выполнять простые алгоритмы правильно и в полном объеме. Основываясь на этих результатах, авторы утверждают, что LLM не имеют истинно обобщаемых рассуждений, вместо этого действуя как сопоставители шаблонов, которые упускают из виду более глубокие структуры.

Отдельное исследование пришло к аналогичным выводам, хотя оно было менее критичным, отметив, что еще многое предстоит узнать о том, насколько хорошо LLM могут рассуждать. А в документе Salesforce, посвященном сравнительному анализу производительности LLM в контексте CRM, было обнаружено, что их возможности резко упали в более сложных, многооборотных сценариях.
Критики говорят, что этот аргумент слишком категоричен
Скептики в отношении LLM рассматривают эти работы как подтверждение своих сомнений в том, что эти системы способны к реальному мышлению, и беспокоятся, что это может ограничить развитие продвинутого ИИ. Но некоторые эксперты в области ИИ утверждают, что выводы в статье слишком упрощённые.
Лоуренс Чан, сотрудник Metr, предложил более глубокое понимание концепции LessWrong. Он считает, что представление о дебатах как о выборе между логическим мышлением и механическим запоминанием не учитывает сложный промежуточный вариант, в котором сочетаются и человеческие, и машинные методы мышления.
Например, когда человек ловит мяч, он не использует сложные математические формулы, а действует интуитивно. Эти простые приёмы не говорят о недостатке знаний, а являются эффективными методами решения задач в условиях ограниченных ресурсов.
Языковые модели, как отмечает Чан, также зависят от опыта и абстрагирования в условиях жёстких вычислительных ограничений. Он отмечает, что обобщение можно рассматривать как продвинутую форму запоминания — начиная с отдельных примеров, переходя к поверхностным стратегиям и в конечном итоге формируя более широкие правила.
Чан отмечает, что, хотя LLM могут испытывать трудности с выводом всех 32 000+ ходов для головоломки Ханойская башня с 15 дисками в точном запрошенном формате, они могут мгновенно сгенерировать скрипт на Python для решения этой задачи. Он утверждает, что, когда LLM объясняют свой подход, предлагают краткие пути и практические решения в виде кода, это демонстрирует функциональное — пусть и иное — понимание задачи. По мнению Чана, если учитывать это как недостаток понимания, то можно упустить суть.
Чан также обращает внимание на то, что не стоит полагаться на результаты решения теоретических задач как на критерий оценки общих способностей моделей. По его мнению, важно определить, насколько эти стратегии применимы к сложным задачам из реальной жизни.
Хотя в документе Apple указаны конкретные недостатки современных LLM, Чан считает, что это уводит в сторону от более серьёзной проблемы: какие виды «рассуждений» важны для практического применения и насколько хорошо с этим справляются LLM?
Ответ ИИ был просто шуткой
Широко распространённая статья «Иллюзия иллюзии мышления», которая распространялась как предполагаемый ответ на критику Apple и была частично написана Claude 4 Opus, никогда не задумывалась как настоящее опровержение. По словам автора Алекса Лоусона, это была просто шутка, полная ошибок.
Лоусон был поражён тем, с какой скоростью его шутка распространилась и как много людей отнеслись к ней всерьёз. Он признался, что это был первый случай, когда он почувствовал, что его творение стало по-настоящему популярным, и, откровенно говоря, это было немного пугающе.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!