Автор «теста на AGI» объяснил истинную цель своего бенчмарка / Хабр

Создатель бенчмарка ARC-AGI-2 Франсуа Шолле ответил на ажиотаж вокруг результата стартапа Poetiq, который с помощью доработанной версии GPT-5.2 X-High достиг результата в 75%, в то время как проходившие бенчмарк люди в среднем показывали 60%. В треде на X Шолле объяснил, что текущие бенчмарки не являются порогом для определения AGI — это "компас, направляющий исследовательское сообщество к правильным вопросам".

По словам Шолле, ARC-AGI-1, запущенный в 2019 году, был минимальным тестом на "подвижный интеллект" (fluid intelligence) — способность адаптироваться к новым задачам. Чтобы его пройти, ИИ-системам пришлось выйти за рамки классической парадигмы "масштабирование предобучения + статичная модель" и перейти к адаптации в процессе работы — с таким лучше справляются рассуждающие модели, набравшие популярность в этом году. ARC-AGI-2, выпущенный в марте 2025 года, усложнил задачу за счет комбинирования сразу нескольких правил — но задачи этой версии решаются обычными людьми за минуты без каких-либо инструментов, так что перед нами далеко не верхняя граница человеческого интеллекта.

Главная новость — анонс ARC-AGI-3 на март 2026 года. Третья версия принципиально меняет формат: вместо статичных головоломок "вход → выход" система будет тестировать интерактивное рассуждение, самостоятельно взаимодействуя с интерфейсом управления. ИИ должен будет исследовать неизвестную среду, строить ее модель, самостоятельно ставить цели и реализовывать их — все это автономно, без инструкций. Шолле также упомянул, что его команда уже начала работу над ARC-AGI-4 и ARC-AGI-5.

Контекст твита — результат стартапа Poetiq, который 23 декабря объявил о 75% на публичном наборе ARC-AGI-2 с использованием GPT-5.2 X-High. Это выше среднего человеческого результата в 60%, и некоторые наблюдатели поспешили заявить о "решении" бенчмарка. Шолле фактически напоминает: прохождение теста и достижение того, что тест пытается измерить — разные вещи. ARC-AGI-3 с его требованием автономного целеполагания станет следующим рубежом, который покажет, насколько далеко ИИ-системы продвинулись к настоящей общей разумности.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Автор «теста на AGI» объяснил истинную цель своего бенчмарка

Другие новости

Ближайшие события