Комментарии 5
Например, Claude Sonnet 3.7 в Doom II часто принимает мёртвых врагов за живых и открывает по ним огонь до тех пор, пока не закончатся патроны.
Да нет же, просто зарождающаяся личность ИИ чуть-чуть психопат, ничего страшного.
Каким образом они нажимают кнопки, видят происходящее?
Об этом подробно рассказано в оригинальном посте на английском.
Речь идёт о частном случае мультимодальных языковых моделей - Vision Language Model (VLM) - которые могут распознавать не только текст, но и изображения. Например GPT-4o, Claude Sonnet 3.7, Gemini 2.5 Pro и т.д.
В тестах, описанных в статье, модель получает скриншот из игры, а в ответе возвращает команду ("нажми клавишу пробел" и т.п.). Команды интерпретируются и передаются игре. С учетом медлительности моделей, каждый такой цикл занимает несколько секунд, поэтому динамичные игры в процессе обработки данных принудительно ставятся на паузу.
Человек не зная правил игры, тоже не всегда может начать в неё играть и разобраться по интуиции. Сам стал сталкивался, когда объясняю что нужно делать и как играть-понимал и играл успешно.
А дальше уже был перенос и обобщения прошлого научения-игровые механики меняются не так уж часто, тот кто играл в игры 20 лет назад, поймёт то что нужно в современной игре делать куда легче чем человек который не видел игор никогда
Исследователи представили бенчмарк, в котором языковые модели проходят классические игры