Как стать автором
Обновить

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры

Время на прочтение2 мин
Количество просмотров3K
Всего голосов 8: ↑8 и ↓0+12
Комментарии5

Комментарии 5

Например, Claude Sonnet 3.7 в Doom II часто принимает мёртвых врагов за живых и открывает по ним огонь до тех пор, пока не закончатся патроны.

Да нет же, просто зарождающаяся личность ИИ чуть-чуть психопат, ничего страшного.

Каким образом они нажимают кнопки, видят происходящее?

Об этом подробно рассказано в оригинальном посте на английском.

Речь идёт о частном случае мультимодальных языковых моделей - Vision Language Model (VLM) - которые могут распознавать не только текст, но и изображения. Например GPT-4o, Claude Sonnet 3.7, Gemini 2.5 Pro и т.д.

В тестах, описанных в статье, модель получает скриншот из игры, а в ответе возвращает команду ("нажми клавишу пробел" и т.п.). Команды интерпретируются и передаются игре. С учетом медлительности моделей, каждый такой цикл занимает несколько секунд, поэтому динамичные игры в процессе обработки данных принудительно ставятся на паузу.

Человек не зная правил игры, тоже не всегда может начать в неё играть и разобраться по интуиции. Сам стал сталкивался, когда объясняю что нужно делать и как играть-понимал и играл успешно.

А дальше уже был перенос и обобщения прошлого научения-игровые механики меняются не так уж часто, тот кто играл в игры 20 лет назад, поймёт то что нужно в современной игре делать куда легче чем человек который не видел игор никогда

Согласен с Вами! Человеку который не имеет игрового опыта, или не играл в пошаговые стратегии будет сложно разобраться в Dominions, помню как объяснял другу как в нее играть, что бы потом рубиться по сети против компа!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости