daniilshat 20 апр в 20:40

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры

2 мин

Искусственный интеллектМашинное обучение*Игры и игровые консоли

+12

Комментарии 5

Например, Claude Sonnet 3.7 в Doom II часто принимает мёртвых врагов за живых и открывает по ним огонь до тех пор, пока не закончатся патроны.

Да нет же, просто зарождающаяся личность ИИ чуть-чуть психопат, ничего страшного.

php7 20 апр в 21:49

Каким образом они нажимают кнопки, видят происходящее?

funca 21 апр в 00:56

Об этом подробно рассказано в оригинальном посте на английском.

Речь идёт о частном случае мультимодальных языковых моделей - Vision Language Model (VLM) - которые могут распознавать не только текст, но и изображения. Например GPT-4o, Claude Sonnet 3.7, Gemini 2.5 Pro и т.д.

В тестах, описанных в статье, модель получает скриншот из игры, а в ответе возвращает команду ("нажми клавишу пробел" и т.п.). Команды интерпретируются и передаются игре. С учетом медлительности моделей, каждый такой цикл занимает несколько секунд, поэтому динамичные игры в процессе обработки данных принудительно ставятся на паузу.

Georgii_L 21 апр в 03:39

Человек не зная правил игры, тоже не всегда может начать в неё играть и разобраться по интуиции. Сам стал сталкивался, когда объясняю что нужно делать и как играть-понимал и играл успешно.

А дальше уже был перенос и обобщения прошлого научения-игровые механики меняются не так уж часто, тот кто играл в игры 20 лет назад, поймёт то что нужно в современной игре делать куда легче чем человек который не видел игор никогда

FFR_666 21 апр в 14:44

Согласен с Вами! Человеку который не имеет игрового опыта, или не играл в пошаговые стратегии будет сложно разобраться в Dominions, помню как объяснял другу как в нее играть, что бы потом рубиться по сети против компа!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий