Search
Write a publication
Pull to refresh

Comments 6

В качестве "неформального бенчмарка" для LLM гораздо более подходят чисто текстовые адвенчуры, хотя бы та же Colossal Cave Adventure, которой в этом году полвека стукнуло. Я немного щупал эту тему (на сколько хватило кредитов на OpenRouter), и пока ни одна языковая модель больше 70 очков (из 300 максимальных) в этой игре у меня не набрала.

Если нейросеть играет в игру, в которую уже играли люди (и о которой ей известно из гайдов в интернете) то это не очень интересно :). В нейронку вполне могли попасть субтитры из гайда на ютубе, по прохождению этой игры.

Поэтому и интереснее тестить на играх без готовых прохождений

Интересный сдвиг именно в плане долгосрочного планирования. Если меньше блужданий и смен целей - это уже практический прогресс

Ожидание: ИИ сделает научные открытия лучше, чем человеки!
Реальность: ИИ играет в игры лучше, чем человеки...

Sign up to leave a comment.

Other news