ARC Prize сообщает, что GPT-5-Pro смогла показать результат в 18,3% в бенчмарке ARC-AGI-2, который считается одним из самых сложных для ИИ. Предыдущим лидером был Grok 4 с результатом 15,9%, а вот до "человеческого" уровня модели далеко — это минимум 85%.

Бенчмарк ARC-AGI-2 — это «Корпус абстракции и рассуждения (Abstraction and Reasoning Corpus)». Модели дают несколько крошечных задач на цветных решетках «до/после». Нужно самостоятельно вывести правило (например, «зеркалить фигуру и дорисовать рамку») и применить его к новой решетке. Никакого предварительного обучения на таких задачах нет — только пару примеров и чистое рассуждение. Идея проста: проверить, умеет ли система обобщать и компоновать правила, как человек, а не вспоминать заученные шаблоны.

ARC-AGI-2 показывает, что даже самым передовым ИИ еще далеко до людей в умении на лету создавать новые знания и применять их в меняющихся условиях. Однако постоянный рост результатов в бенчмарке показывает - есть шанс, что совершенствование текущих технологий и наращивание вычислительных мощностей рано или поздно позволят моделям обрести данный навык.

Отдельно стоит отметить результаты Джереми Бермана (29,4%) и Эрика Панга (26,0%). Оба использовали Grok-4 как базовую модель. Берман задействовал многоагентный эволюционный поиск решений: несколько агентов порождают гипотезы, тестируют их и «скрещивают» лучшие — это дало 29,4% на ARC-AGI-2. Панг, напротив, сделал ставку на синтез небольших программ с «растущей библиотекой» примитивов и повторным использованием удачных фрагментов; его система показала 26,0% на ARC-AGI-2. Оба показывают, что иногда достаточно применить более оригинальный подход, чтобы улучшить результаты текущих ИИ.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.