Pull to refresh
2
0
Петр Анохин@Anokim

Ведущий научный сотрудник, руководитель группы

Send message

HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах

Level of difficultyEasy
Reading time7 min
Reach and readers4.6K

Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.

Мы прогнали через него 25 открытых и проприетарных LLM и выявили существенные различия в производительности, редко наблюдаемые в традиционных бенчмарках для анализа логических рассуждений. Другая особенность нашей работы в том, что новый бенчмарк вырос из небольшого студенческого проекта на летней школе AIRI. 

Подробнее об этом и технических деталях — читайте в нашей статье.

Читать далее

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity