Тест на прочность: LLM против сложных задач / Хабр

В мире, где условия задач постоянно меняются, способность языковой модели учиться на ходу без перестройки своих параметров становится настоящим вызовом. Недавнее исследование показывает, как простые техники рефлексии, эволюционных эвристик и планирования превращают LLM в гибких агентов, способных адаптироваться к новым ситуациям. От классической игры «камень-ножницы-бумага» до сложных головоломок Ханойской башни — узнайте, какие стратегии работают лучше всего и какие перспективы откроются перед LLM в динамических средах.

Цель исследования

В статье "Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models" основной вопрос звучит так: «Насколько эффективно языковые модели могут самостоятельно обучаться и адаптироваться к новым задачам, используя только специальные промты, без изменения своих параметров?» Авторы сравнивают различные промт-стратегии, изучая их влияние на способности моделей в динамических условиях.

Используемые методы

Исследователи тестировали модели на наборе SmartPlay, включающем четыре задачи разного уровня сложности:

Bandit (двухрукий бандит): задача на выбор оптимального действия (максимум — 45 баллов).
Rock-Paper-Scissors (камень-ножницы-бумага): выигрышные ходы против случайного противника (максимум — 43).
Tower of Hanoi (Ханойская башня с тремя дисками): успешно перемещённые диски (максимум — 3).
Messenger: доставка сообщений с наградами за успех и штрафами за ошибки (максимум — 1 балл).

Тепловая карта показывает относительную важность навыков для успешной игры в каждой среде: bandit: важны понимание вероятностей и обучение на прошлых данных; камень, ножницы, бумага: следование инструкциям, обучение на основе поведения соперника, понимание длинных текстов; Ханой: планирование, логическое мышление, точное выполнение инструкций; messenger: интерпретация длинных текстов, пространственное мышление, вероятностное мышление и обобщение. — Тепловая карта показывает относительную важность навыков для успешной игры в каждой среде: **bandit**: важны понимание вероятностей и обучение на прошлых данных; **камень, ножницы, бумага**: следование инструкциям, обучение на основе поведения соперника, понимание длинных текстов; **Ханой**: планирование, логическое мышление, точное выполнение инструкций; **messenger**: интерпретация длинных текстов, пространственное мышление, вероятностное мышление и обобщение.

Тестирование проводилось на четырёх разных моделях:

LLAMA3-8B (8 млрд параметров)
MISTRAL-NEMO-12B (12 млрд параметров)
DEEPSEEK-R1-14B (14 млрд параметров)
LLAMA3.3-70B (70 млрд параметров)

Три основных промтинг-стратегии :

Reflection (рефлексия): анализ своих действий и рекомендаций по улучшению.
Oracle (оракул/эвристическая эволюция): автоматическая эволюция и сохранение успешных стратегий.
Planner (планирование шагов): прогнозирование действий наперёд и выбор оптимального пути.

Агент выбирает действие, получает вознаграждение и переходит в новое состояние. Дополнительно ему помогают три модуля: рефлексия, оракул и планировщик

Ключевые результаты

Самые большие модели (LLAMA3.3-70B) показали лучшие результаты практически во всех тестах. Однако применение дополнительных стратегий prompting позволило даже средним моделям (например, LLAMA3-8B и MISTRAL-NEMO-12B) существенно улучшить результаты:

В игре "Камень-ножницы-бумага" LLAMA3-8B с Reflection и Oracle достигла среднего показателя в 26 баллов, значительно сократив отставание от больших моделей.
В задаче Messenger модель MISTRAL-NEMO-12B с Reflection и Planner достигла максимальной оценки 1, превосходя даже большие модели, которые показали более низкие результаты.

Таблица показывает минимальные, медианные и максимальные средние баллы за три прогона. В верхней строке — человеческий базовый уровень. Более тёмные ячейки означают ближе к человеческому уровню. — Таблиц�� показывает минимальные, медианные и максимальные средние баллы за три прогона. В верхней строке — человеческий базовый уровень. Более тёмные ячейки означают ближе к человеческому уровню.

Тем не менее, наблюдалась и значительная нестабильность. Например, результаты модели MISTRAL-NEMO-12B сильно варьировались от 10 до 33 баллов в игре "Камень-ножницы-бумага".

Дополнительные эксперименты показали, что упрощение задач и добавление чётких сигналов-наград (reward shaping) существенно улучшает способность моделей решать задачи, которые ранее были недоступны. Например, введение промежуточных наград за правильные ходы в Ханойской башне увеличило успех модели с 0 % до 42 %.

Ограничения и перспективы

Несмотря на перспективность таких подходов, исследование выявило ряд важных ограничений:

Нестабильность результатов: даже небольшие изменения условий могли значительно повлиять на эффективность моделей.
Перегрузка информацией: слишком длинные и сложные подсказки снижали эффективность небольших моделей.
Ограничения в самобучении и рассуждениях: модели часто повторяли ошибки и демонстрировали неспособность к долгосрочному планированию.
Проблемы с пространственным пониманием: модели плохо справлялись с задачами, требующими ориентации в пространстве и понимания сложных правил.

Авторы предлагают несколько перспективных направлений для преодоления этих проблем:

Использование внешней памяти и символических представлений для улучшения способности к планированию.
Введение мультимодального в��сприятия для лучшего понимания реального мира.
Создание гибридных архитектур, совмещающих языковые модели с традиционными алгоритмами искусственного интеллекта.Заключение

Заключение

Данное исследование показывает, что большие языковые модели уже способны адаптироваться к новым задачам, используя специальные подсказки, но их способности пока остаются ограниченными. Продолжение работы в этом направлении позволит создать более надёжных и гибких интеллектуальных агентов, способных работать в реальных динамических средах.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Тест на прочность: LLM против сложных задач

Цель исследования

Используемые методы

Ключевые результаты

Ограничения и перспективы

Заключение

Публикации

Ближайшие события