
Новая модель Anthropic набрала 68,8% на бенчмарке ARC-AGI-2 — тесте абстрактного мышления, где год назад все ИИ-модели показывали ноль, а средний результат панели из 400 живых людей составляет 60%. Стоимость — $3,64 за задачу. Результаты подтверждены командой ARC Prize на полуприватном наборе задач.
ARC-AGI-2 — бенчмарк Франсуа Шолле, создателя Keras, запущенный в марте 2025 года. Он проверяет не знания модели, а способность обобщать: задачи — визуальные головоломки с цветными сетками, где нужно вывести правило из нескольких примеров и применить его к новому. Заучить ответы невозможно — каждая задача уникальна.
ARC Prize тестировал Opus 4.6 на четырех уровнях усилий с фиксированным бюджетом мышления — 120 тысяч токенов на внутренние рассуждения. Разброс оказался небольшим: от ~63% на минимуме до 68,8% на максимуме. При этом предшественник Opus 4.5 с бюджетом в 64 тысячи токенов набирал 37,6% — по данным ARC Prize, размер бюджета мышления влияет на результат сильнее, чем уровень усилий. Для сравнения: GPT-5.2 Pro (High) от OpenAI показывает 54,2% при ~$10 за задачу, а GPT-5.2 (X-High) — 52,9% за $1,90.
Формально на графике ARC-AGI-2 есть точки и выше: GPT-5.2 (Refine.) набирает около 72%. Но это не «чистая» модель — за ней стоит рефайнмент-обвязка от стартапа Poetiq, мета-система, которая многократно запускает модель в цикле «генерация → проверка → уточнение» за $20–30 за задачу. Opus 4.6 — первая коммерческая модель, превзошедшая человеческий базовый уровень на ARC-AGI-2 без внешних систем уточнения.
Впрочем, создатели бенчмарка не спешат объявлять победу. Grand Prize в $700 тысяч (за 85% при $0,42 за задачу) остается невостребованным. В январском отчете команда ARC Prize назвала 2025-й "годом циклов уточнения" и отметила, что разрыв в точности — уже "узкое место инженерии", а в эффективности — по-прежнему "узкое место науки". В начале 2026-го фонд планирует выпустить ARC-AGI-3 с принципиально новым форматом: вместо статических головоломок — интерактивные среды, требующие исследования, планирования и памяти.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
