
Исследователь Джереми Берман сообщил, что разработанная им мультиагентная система на базе GPT-5 Pro показала 88 из 100 на случайной выборке задач из бенчмарка ARC-AGI-1 при средней стоимости порядка 27 долларов за задачу и суммарном времени прогона около 12 часов. Берман подчеркивает, что результат еще предстоит проверить на скрытом наборе ARC Prize; в его прошлых экспериментах официальная верификация обычно снижала итог на несколько пунктов и слегка увеличивала стоимость. С этой оговоркой автор ожидает, что итоговый скор окажется вблизи ориентирной планки «human-level» около 85%. Стоит отметить, что системы Бермана регулярно достигали лидирующих позиций в бенчмарках ARC, так что его слова заслуживают доверия.
ARC-AGI-1 — сложный бенчмарк на абстрактное рассуждение: системе дают несколько примеров решения задачи, на основе которых она должна вывести обобщающее правило и применить его к новым задачам. Проверка идет на скрытых тестах, что срезает «выученные шаблоны» и выделяет именно способность к выводу правил. В официальном бенчмарке зона выше ~85% считается уровнем среднего человека. Лучший результат ИИ — 79,6% — также достигнут Берманом и его системой на базе Grok 4. Результат "обычной" GPT-5 Pro — 70,2%.
По словам Бермана, система использует подход evolutionary test-time compute: вместо единственного ответа группа работающих параллельно копий GPT-5 Pro создает много решений кандидатов и автоматически прогоняет их на примерах задачи, оценивая качество. Лучшие варианты сохраняются, "мутируют" и снова проверяются — цикл повторяется до нахождения устойчивого решения или исчерпания бюджета. За поиск отвечает сложная система: одни агенты предлагают и уточняют решения, другие проверяют их корректность, а контролирующая модель поддерживает разнообразие стратегий, чтобы не "застревать" на одном подходе.
Решение Бермана подтверждает прогнозы развития LLM, согласно которым передовые решения будут достигаться системами из сразу нескольких моделей, работающих в параллели — причем некоторые из них могут быть нацелены под разные задачи. Сейчас такой подход реализован в Grok 4 Heavy и Gemini 2.5 Deep Think.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.