Как стать автором
Обновить

Тест на прочность: LLM против сложных задач

Время на прочтение4 мин
Количество просмотров851

В мире, где условия задач постоянно меняются, способность языковой модели учиться на ходу без перестройки своих параметров становится настоящим вызовом. Недавнее исследование показывает, как простые техники рефлексии, эволюционных эвристик и планирования превращают LLM в гибких агентов, способных адаптироваться к новым ситуациям. От классической игры «камень-ножницы-бумага» до сложных головоломок Ханойской башни — узнайте, какие стратегии работают лучше всего и какие перспективы откроются перед LLM в динамических средах.

Цель исследования

В статье "Towards a Deeper Understanding of Reasoning Capabilities in Large Language Models" основной вопрос звучит так: «Насколько эффективно языковые модели могут самостоятельно обучаться и адаптироваться к новым задачам, используя только специальные промты, без изменения своих параметров?» Авторы сравнивают различные промт-стратегии, изучая их влияние на способности моделей в динамических условиях.

Используемые методы

Исследователи тестировали модели на наборе SmartPlay, включающем четыре задачи разного уровня сложности:

  1. Bandit (двухрукий бандит): задача на выбор оптимального действия (максимум — 45 баллов).

  2. Rock-Paper-Scissors (камень-ножницы-бумага): выигрышные ходы против случайного противника (максимум — 43).

  3. Tower of Hanoi (Ханойская башня с тремя дисками): успешно перемещённые диски (максимум — 3).

  4. Messenger: доставка сообщений с наградами за успех и штрафами за ошибки (максимум — 1 балл).

Тепловая карта показывает относительную важность навыков для успешной игры в каждой среде: bandit: важны понимание вероятностей и обучение на прошлых данных; камень, ножницы, бумага: следование инструкциям, обучение на основе поведения соперника, понимание длинных текстов; Ханой: планирование, логическое мышление, точное выполнение инструкций; messenger: интерпретация длинных текстов, пространственное мышление, вероятностное мышление и обобщение.
Тепловая карта показывает относительную важность навыков для успешной игры в каждой среде: bandit: важны понимание вероятностей и обучение на прошлых данных; камень, ножницы, бумага: следование инструкциям, обучение на основе поведения соперника, понимание длинных текстов; Ханой: планирование, логическое мышление, точное выполнение инструкций; messenger: интерпретация длинных текстов, пространственное мышление, вероятностное мышление и обобщение.

Тестирование проводилось на четырёх разных моделях:

  • LLAMA3-8B (8 млрд параметров)

  • MISTRAL-NEMO-12B (12 млрд параметров)

  • DEEPSEEK-R1-14B (14 млрд параметров)

  • LLAMA3.3-70B (70 млрд параметров)

Три основных промтинг-стратегии :

  • Reflection (рефлексия): анализ своих действий и рекомендаций по улучшению.

  • Oracle (оракул/эвристическая эволюция): автоматическая эволюция и сохранение успешных стратегий.

  • Planner (планирование шагов): прогнозирование действий наперёд и выбор оптимального пути.

Агент выбирает действие, получает вознаграждение и переходит в новое состояние. Дополнительно ему помогают три модуля: рефлексия, оракул и планировщик
Агент выбирает действие, получает вознаграждение и переходит в новое состояние. Дополнительно ему помогают три модуля: рефлексия, оракул и планировщик

Ключевые результаты

Самые большие модели (LLAMA3.3-70B) показали лучшие результаты практически во всех тестах. Однако применение дополнительных стратегий prompting позволило даже средним моделям (например, LLAMA3-8B и MISTRAL-NEMO-12B) существенно улучшить результаты:

  • В игре "Камень-ножницы-бумага" LLAMA3-8B с Reflection и Oracle достигла среднего показателя в 26 баллов, значительно сократив отставание от больших моделей.

  • В задаче Messenger модель MISTRAL-NEMO-12B с Reflection и Planner достигла максимальной оценки 1, превосходя даже большие модели, которые показали более низкие результаты.

Таблица показывает минимальные, медианные и максимальные средние баллы за три прогона. В верхней строке — человеческий базовый уровень. Более тёмные ячейки означают ближе к человеческому уровню.
Таблица показывает минимальные, медианные и максимальные средние баллы за три прогона. В верхней строке — человеческий базовый уровень. Более тёмные ячейки означают ближе к человеческому уровню.

Тем не менее, наблюдалась и значительная нестабильность. Например, результаты модели MISTRAL-NEMO-12B сильно варьировались от 10 до 33 баллов в игре "Камень-ножницы-бумага".

Дополнительные эксперименты показали, что упрощение задач и добавление чётких сигналов-наград (reward shaping) существенно улучшает способность моделей решать задачи, которые ранее были недоступны. Например, введение промежуточных наград за правильные ходы в Ханойской башне увеличило успех модели с 0 % до 42 %.

Ограничения и перспективы

Несмотря на перспективность таких подходов, исследование выявило ряд важных ограничений:

  • Нестабильность результатов: даже небольшие изменения условий могли значительно повлиять на эффективность моделей.

  • Перегрузка информацией: слишком длинные и сложные подсказки снижали эффективность небольших моделей.

  • Ограничения в самобучении и рассуждениях: модели часто повторяли ошибки и демонстрировали неспособность к долгосрочному планированию.

  • Проблемы с пространственным пониманием: модели плохо справлялись с задачами, требующими ориентации в пространстве и понимания сложных правил.

Авторы предлагают несколько перспективных направлений для преодоления этих проблем:

  • Использование внешней памяти и символических представлений для улучшения способности к планированию.

  • Введение мультимодального восприятия для лучшего понимания реального мира.

  • Создание гибридных архитектур, совмещающих языковые модели с традиционными алгоритмами искусственного интеллекта.Заключение

Заключение

Данное исследование показывает, что большие языковые модели уже способны адаптироваться к новым задачам, используя специальные подсказки, но их способности пока остаются ограниченными. Продолжение работы в этом направлении позволит создать более надёжных и гибких интеллектуальных агентов, способных работать в реальных динамических средах.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Теги:
Хабы:
-1
Комментарии1

Публикации

Работа

Data Scientist
50 вакансий

Ближайшие события