Articles / Profile of Anokim / Habr

Anokim Oct 2 2025 at 08:19

HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах

Easy

7 min

4.6K

AIRI corporate blogNatural Language Processing * Machine learning * Artificial IntelligenceProgramming *

Case

Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.

Мы прогнали через него 25 открытых и проприетарных LLM и выявили существенные различия в производительности, редко наблюдаемые в традиционных бенчмарках для анализа логических рассуждений. Другая особенность нашей работы в том, что новый бенчмарк вырос из небольшого студенческого проекта на летней школе AIRI.

Подробнее об этом и технических деталях — читайте в нашей статье.