Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией / Хабр

Современные ИИ-системы для видеоигр часто упираются в ограничения классических методов, таких как обучение с подкреплением (RL): они требуют больших вычислительных ресурсов, длительного обучения и тонкой настройки под каждую игру. В ответ на эти сложности исследователи из Tencent предложили новый подход к созданию ИИ-агентов для 3D-игр — с опорой на большие языковые модели (LLM) и специализированный язык описания поведения. Такой метод позволяет быстро генерировать эффективные стратегии без переобучения, и, как показывают эксперименты, демонстрирует впечатляющие результаты. Разбираемся, как это работает.

В чем проблема?

Авторы исследования "Agents Play Thousands of 3D Video Games" выделяют три ключевые проблемы:

• Адаптивность: ИИ-агенты должны быстро осваивать тысячи новых игр с разными механиками и условиями;

• Экономия ресурсов: Традиционные RL-методы требуют слишком много вычислительных мощностей и времени;

• Понятность поведения: Для разработчиков и дизайнеров важно понимать, почему агент действует именно так.

Чтобы решить эти проблемы, авторы предлагают совершенно новый подход: использовать большие языковые модели (LLM) для генерации стратегий в виде понятных поведенческих деревьев.

Цель исследования

Цель работы - создать универсальный фреймворк под названием PORTAL, который:

• Позволяет ИИ-агентам эффективно играть в тысячи различных 3D-игр без необходимости долгого переобучения;

• Быстро генерирует стратегии в виде поведенческих деревьев на понятном DSL-языке;

• Объединяет сильные стороны LLM (стратегическое планирование и высокоуровневое мышление) с надежностью простых правил и компактных нейронных сетей;

• Позволяет быстро улучшать стратегии на основе игровых метрик и анализа с помощью визуально-языковых моделей (VLM).

Таким образом, авторы стремятся преодолеть ограничения традиционных RL-методов и предложить более эффективное и понятное решение для динамичных игровых сред.

Методы исследования

Общая схема генерации дерева поведения с использованием больших языковых моделей (LLM)

Авторы предложили несколько ключевых решений:

1. Превращение задачи принятия решений в задачу языкового моделирования

• Использование LLM для генерации поведенческих деревьев, описанных на DSL;

• Применение подхода Chain-of-Thought (CoT) для пошагового создания и улучшения стратегий.

2. Гибридная архитектура политики

Поведенческие деревья состоят из двух типов узлов:

• Нейронные узлы: выполняют тактические действия с помощью небольших нейронных сетей.

• Узлы с правилами: реализуют простые и понятные правила.

Такой подход позволяет сочетать стратегическое планирование (LLM) с быстрым и надежным исполнением.

3. Двойной механизм обратной связи (Reflexion)

• Количественные игровые метрики: анализируются показатели вроде числа убийств, эффективности перемещений и т.д.

• Визуально-языковые модели: на основе мини-карт анализируются стратегические аспекты (контроль территории, командная игра, адаптивность).

4. Поиск и отбор лучших стратегий

• Используется поиск в ширину (BFS) для генерации множества вариантов стратегий.

• Лучшие стратегии отбираются по игровым метрикам и затем дополнительно улучшаются.

5. Планирование и переключение политик

• Отдельная нейросеть («policy scheduling network») выбирает наиболее подходящее поведенческое дерево в зависимости от текущей игровой ситуации.

Архитектура системы с генерацией дерева поведения, взаимодействием с игровым окружением и механизмом рефлексии

Таким образом, авторы объединили преимущества современных LLM с проверенными методами управления поведением, получив стабильные и адаптивные решения.

Процесс генерации и улучшения дерева поведения на основе LLM

Результаты исследования

Авторы протестировали фреймворк PORTAL на платформе Yuan Meng Star от Tencent, выбрав для экспериментов игры жанра FPS (шутеры от первого лица). Основные результаты:

• Улучшение игровых показателей: Итеративное улучшение стратегий позволило существенно сократить время между убийствами и повысить эффективность игровых действий;

• Повышение тактической эффективности: Анализ с помощью визуально-языковых моделей помог улучшить контроль территории, командную координацию и адаптивность агентов;

• Универсальность стратегий: Агенты успешно справились с разными FPS-играми, подтвердив способность фреймворка обобщать стратегии на различные игровые механики и визуальные стили;

• Быстрая разработка и адаптация: Возможность мгновенно обновлять и тестировать стратегии без переобучения нейронных сетей значительно ускорила разработку.

Выводы

Предложенный фреймворк PORTAL объединяет преимущества современных языковых моделей и проверенных методов управления поведением, позволяя создавать понятные, адаптивные и эффективные стратегии.

Метод также можно адаптировать для робототехники, автономного транспорта и других задач с иерархическим принятием решений. А добавление нескольких агентов в систему сможет расширить позволит создавать сложные и эффективные командные стратегии.

Однако несмотря на успешные результаты в FPS-играх, адаптация к более сложным жанрам (например, RPG или стратегии) потребует дополнительных исследований. Также в необычных игровых сценариях предложенный подход может уступать традиционным RL-методам, что требует дальнейших исследований.

---

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.