runaway_llm Aug 14 at 16:03

GPT-5 прошла Pokemon Red почти в три раза быстрее GPT o3

1 min

1.5K

Artificial IntelligenceMachine learning *

Comments 6

В качестве "неформального бенчмарка" для LLM гораздо более подходят чисто текстовые адвенчуры, хотя бы та же Colossal Cave Adventure, которой в этом году полвека стукнуло. Я немного щупал эту тему (на сколько хватило кредитов на OpenRouter), и пока ни одна языковая модель больше 70 очков (из 300 максимальных) в этой игре у меня не набрала.

xsevenbeta Aug 14 at 16:31

Если нейросеть играет в игру, в которую уже играли люди (и о которой ей известно из гайдов в интернете) то это не очень интересно :). В нейронку вполне могли попасть субтитры из гайда на ютубе, по прохождению этой игры.