Comments 6
В качестве "неформального бенчмарка" для LLM гораздо более подходят чисто текстовые адвенчуры, хотя бы та же Colossal Cave Adventure, которой в этом году полвека стукнуло. Я немного щупал эту тему (на сколько хватило кредитов на OpenRouter), и пока ни одна языковая модель больше 70 очков (из 300 максимальных) в этой игре у меня не набрала.
Если нейросеть играет в игру, в которую уже играли люди (и о которой ей известно из гайдов в интернете) то это не очень интересно :). В нейронку вполне могли попасть субтитры из гайда на ютубе, по прохождению этой игры.
Интересный сдвиг именно в плане долгосрочного планирования. Если меньше блужданий и смен целей - это уже практический прогресс
Ожидание: ИИ сделает научные открытия лучше, чем человеки!
Реальность: ИИ играет в игры лучше, чем человеки...
GPT-5 прошла Pokemon Red почти в три раза быстрее GPT o3