Бенчмарк ARC (Abstraction and Reasoning Corpus), долгое время считавшийся одной из самых сложных проверок абстрактного мышления для ИИ, оказался ещё одной «жертвой» оптимизации и инженерных ухищрений в индустрии ИИ. По данным аналитиков и свежим результатам стартапа Poetiq, современные системы на базе больших моделей, включая GPT‑5.2 X‑High, показали до 75 % точности на ARC‑AGI‑2, что выше средней оценки человека на этих задачах. 

Изначально ARC создавался для измерения истинного обобщающего интеллекта, а не простого запоминания статистики или шаблонов. Его особенность заключалась в том, что задачи требуют абстрактного рассуждения и понимания закономерностей, чего именно не хватает многим большим языковым моделям. Однако последние успехи продемонстрировали, что инженерные стратегии, такие как усовершенствованные промпты, генерация кода и итеративное самокорректирование, позволяют системам достигать очень высоких результатов, превращая ARC из лабораторного испытания в оптимизационный таргет. 

Компания Poetiq подробно описывает свой подход: их система направляет основную модель (например, GPT‑5.2) на генерацию кода для решения каждой отдельной задачи, затем исполняет этот код, проверяет корректность результата и вносит исправления, если они требуются. Несколько независимых запусков затем объединяются для повышения надёжности итогового вывода. Этот цикл сочетает мощь генеративных моделей с программным анализом и логикой поиска, что существенно повышает итоговые баллы. 

Тем не менее высокие результаты пока относятся только к «публичным» наборам данных, доступным для обучения и оптимизации. На полусекретных наборах, которые обычно используются для официальных соревнований и частных тестов, показатели могут заметно падать, поскольку модели могли уже «усвоить» публичные примеры в процессе обучения. Это поднимает вопросы о том, насколько текущие результаты отражают настоящие способности к обобщающему мышлению, а не умение оптимизировать под конкретные тесты. 

Креаторы ARC и эксперты по ИИ напоминают, что изначальная цель этих бенчмарков — стимулировать исследования в направлении универсального интеллекта, а не просто «побить рекорд». Но то, что ARC и его продолжения теперь оказываются решаемыми с помощью инженерных решений, свидетельствует о смещении трендов в индустрии: технологии тест‑времени адаптации и решения задач на лету становятся важнее традиционных стратегий масштабирования моделей.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник