
Современные ИИ-системы для видеоигр часто упираются в ограничения классических методов, таких как обучение с подкреплением (RL): они требуют больших вычислительных ресурсов, длительного обучения и тонкой настройки под каждую игру. В ответ на эти сложности исследователи из Tencent предложили новый подход к созданию ИИ-агентов для 3D-игр — с опорой на большие языковые модели (LLM) и специализированный язык описания поведения. Такой метод позволяет быстро генерировать эффективные стратегии без переобучения, и, как показывают эксперименты, демонстрирует впечатляющие результаты. Разбираемся, как это работает.
В чем проблема?

Авторы исследования "Agents Play Thousands of 3D Video Games" выделяют три ключевые проблемы:
• Адаптивность: ИИ-агенты должны быстро осваивать тысячи новых игр с разными механиками и условиями;
• Экономия ресурсов: Традиционные RL-методы требуют слишком много вычислительных мощностей и времени;
• Понятность поведения: Для разработчиков и дизайнеров важно понимать, почему агент действует именно так.
Чтобы решить эти проблемы, авторы предлагают совершенно новый подход: использовать большие языковые модели (LLM) для генерации стратегий в виде понятных поведенческих деревьев.
Цель исследования
Цель работы - создать универсальный фреймворк под названием PORTAL, который:
• Позволяет ИИ-агентам эффективно играть в тысячи различных 3D-игр без необходимости долгого переобучения;
• Быстро генерирует стратегии в виде поведенческих деревьев на понятном DSL-языке;
• Объединяет сильные стороны LLM (стратегическое планирование и высокоуровневое мышление) с надежностью простых правил и компактных нейронных сетей;
• Позволяет быстро улучшать стратегии на основе игровых метрик и анализа с помощью визуально-языковых моделей (VLM).
Таким образом, авторы стремятся преодолеть ограничения традиционных RL-методов и предложить более эффективное и понятное решение для динамичных игровых сред.
Методы исследования

Авторы предложили несколько ключевых решений:
1. Превращение задачи принятия решений в задачу языкового моделирования
• Использование LLM для генерации поведенческих деревьев, описанных на DSL;
• Применение подхода Chain-of-Thought (CoT) для пошагового создания и улучшения стратегий.
2. Гибридная архитектура политики
Поведенческие деревья состоят из двух типов узлов:
• Нейронные узлы: выполняют тактические действия с помощью небольших нейронных сетей.
• Узлы с правилами: реализуют простые и понятные правила.
Такой подход позволяет сочетать стратегическое планирование (LLM) с быстрым и надежным исполнением.
3. Двойной механизм обратной связи (Reflexion)
• Количественные игровые метрики: анализируются показатели вроде числа убийств, эффективности перемещений и т.д.
• Визуально-языковые модели: на основе мини-карт анализируются стратегические аспекты (контроль территории, командная игра, адаптивность).
4. Поиск и отбор лучших стратегий
• Используется поиск в ширину (BFS) для генерации множества вариантов стратегий.
• Лучшие стратегии отбираются по игровым метрикам и затем дополнительно улучшаются.
5. Планирование и переключение политик
• Отдельная нейросеть («policy scheduling network») выбирает наиболее подходящее поведенческое дерево в зависимости от текущей игровой ситуации.

Таким образом, авторы объединили преимущества современных LLM с проверенными методами управления поведением, получив стабильные и адаптивные решения.

Результаты исследования
Авторы протестировали фреймворк PORTAL на платформе Yuan Meng Star от Tencent, выбрав для экспериментов игры жанра FPS (шутеры от первого лица). Основные результаты:

• Улучшение игровых показателей: Итеративное улучшение стратегий позволило существенно сократить время между убийствами и повысить эффективность игровых действий;
• Повышение тактической эффективности: Анализ с помощью визуально-языковых моделей помог улучшить контроль территории, командную координацию и адаптивность агентов;
• Универсальность стратегий: Агенты успешно справились с разными FPS-играми, подтвердив способность фреймворка обобщать стратегии на различные игровые механики и визуальные стили;
• Быстрая разработка и адаптация: Возможность мгновенно обновлять и тестировать стратегии без переобучения нейронных сетей значительно ускорила разработку.
Выводы
Предложенный фреймворк PORTAL объединяет преимущества современных языковых моделей и проверенных методов управления поведением, позволяя создавать понятные, адаптивные и эффективные стратегии.
Метод также можно адаптировать для робототехники, автономного транспорта и других задач с иерархическим принятием решений. А добавление нескольких агентов в систему сможет расширить позволит создавать сложные и эффективные командные стратегии.
Однако несмотря на успешные результаты в FPS-играх, адаптация к более сложным жанрам (например, RPG или стратегии) потребует дополнительных исследований. Также в необычных игровых сценариях предложенный подход может уступать традиционным RL-методам, что требует дальнейших исследований.
---
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.