Как стать автором
Обновить

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры

Время на прочтение2 мин
Количество просмотров3K

Исследователи Принстонского университета представили Video Game Bench — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy. Код бенчмарка открыт и опубликован на GitHub.

Авторы проекта решили выяснить, какая из языковых моделей может пройти как можно больше классических игр. При этом для анализа нейроагентам предоставляют только вводный промпт и кадры самой игры. Исследователи отмечают, что языковые модели могут решать сложные задачи, но пока не было случаев, когда нейросеть полностью проходила игру. В основном это связано с тем, что языковые модели плохо справляются с долгосрочными логическими рассуждениями, не запоминают порядок действий, не обладают пространственным мышлением и интуицией.

Для анализа возможностей языковых моделей исследователи разработали бенчмарк, в котором нейроагенты могут поиграть в одну из 20 классических игр для MS-DOS и Game Boy. Поддержку MS-DOS реализовали с помощью DOSBOX, а GameBoy — PyBoy. В бенчмарке агенты могут видеть экран игры и управлять контроллером. Авторы заявляют поддержку нажатия одиночных клавиш, последовательностей и действий с таймером. Например, агент может удерживать определённую клавишу несколько секунд, а после нажать на другую кнопку.

Есть поддержка следующих игр:

Название

Платформа

Doom

MS-DOS

Doom II

MS-DOS

Quake

MS-DOS

Sid Meier's Civilization 1

MS-DOS

Warcraft II: Tides of Darkness (Orc Campaign)

MS-DOS

Oregon Trail Deluxe (1992)

MS-DOS

X-COM UFO Defense

MS-DOS

The Incredible Machine (1993)

MS-DOS

Prince of Persia

MS-DOS

The Need for Speed

MS-DOS

Age of Empires (1997)

MS-DOS

Pokemon Red (GB)

Game Boy 

Pokemon Crystal (GBC)

Game Boy 

Legend of Zelda: Link's Awakening (DX for GBC)

Game Boy 

Super Mario Land

Game Boy 

Kirby's Dream Land (DX Mod for GBC) 

Game Boy 

Mega Man: Dr. Wily's Revenge

Game Boy 

Donkey Kong Land 2

Game Boy 

Castlevania Adventure

Game Boy 

Scooby-Doo! - Classic Creep Capers

Game Boy 

Авторы проекта заметили особенности, которые мешают языковым моделям успешно проходить классические игры до конца:

  • Неинтуитивные механики. Если нейросети не рассказать об игре, правилах и механиках, то она не поймёт, что ей нужно делать.

  • Непривычные устройства ввода. Продвинутые модели от OpenAI, Google и Anthropic не умеют пользоваться мышью. Им сложно управлять игрой в Civilization и Warcraft II.

  • Неправильная трактовка происходящего. Нейросети часто неправильно распознают образы, что приводит к неправильному планированию действий. Например, Claude Sonnet 3.7 в Doom II часто принимает мёртвых врагов за живых и открывает по ним огонь до тех пор, пока не закончатся патроны.

  • Задержка вывода. Языковым моделям нужно время на анализ данных и генерацию ответа, что сильно мешает в динамичных играх. Например, если нейроагент заметил на экране врага, то к моменту генерации ответа врага уже не будет на изначальном месте. Для решения этой проблемы исследователи выпустили бенчмарк Video Game Bench Lite, который ставит игру на паузу и даёт нейросети время, чтобы подумать.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+12
Комментарии5

Другие новости

Истории

Работа

Data Scientist
46 вакансий

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
14 мая
LinkMeetup
Москва
5 июня
Конференция TechRec AI&HR 2025
МоскваОнлайн
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область