Новая GPT-5.2 поставила рекорд в сложнейшем «бенчмарке на AGI» / Хабр

OpenAI представила GPT-5.2 — свою новую флагманскую модель, которая доступна в API и раскатывается в ChatGPT. А организация ARC Prize уже опубликовала результаты своих бенчмарков ARC-AGI-1 и ARC-AGI-2, которые считаются сложным тестом на абстрактное мышление и нередко называются "экзаменом на AGI". Модель заняла первое место в обоих бенчмарках, но остановимся на результатах ARC-AGI-2 — эта версия была выпущена недавно и считается, что ее задачи еще не "попали" в обучающие дата-сеты для ИИ.

Итак, GPT-5.2 Pro выполняет 54,2% задач против 54% у предыдущего рекордсмена. Разница небольшая, но стоит отметить, что ранее первое место принадлежало Poetiq — специальной системе "оркестрации" сразу нескольких копий Gemini 3 Pro, заточенной под бенчмарки типа ARC-AGI. Сейчас же лучший результат показала модель, которая доступна массовому пользователю. Также стоит обратить внимание на "обычную" GPT-5.2 Thinking: в режиме X-High она решила 52,9% задач при цене лишь $1,90 за задачу против $15,27 у GPT-5.2 Pro и $30,75 у Poetiq. Это показывает, что более доступным версиям модели теперь доступны задачи повышенной сложности.

Напомню, что в ARC-AGI проверяют умение ИИ переносить полученные навыки на похожие задачи. Сначала модели показывают две визуальных головоломки в формате "условие — правильно решенная версия". Задача ИИ — вывести правило, по которому решались эти головоломки, а затем с его помощью решить третью. Люди решают такие головоломки сравнительно легко, но вот ИИ ARC-AGI до недавнего времени не давался. GPT-5.2 оказалась близка к человеческому уровню - для ARC-AGI-2 он установлен в 66%.

Из других бенчмарков стоит отметить прирост в GDPval — 70,9% у GPT-5.2 Thinking против 38,8% у GPT-5.1 Thinking. Это новый бенчмарк OpenAI, в котором измеряется способность ИИ выполнять реальные рабочие задачи. В нем модели создают презентации, заполняют таблицы Excel, пишут документы Word и даже рендерит видео — задачи могут показаться не очень сложными, но суть в том, что именно с них должно начаться внедрение ИИ в широкую работу и именно здесь будет оказываться максимальное влияние на ВВП. Также у модели сократили в два раза число ошибок при понимании изображений, в особенности — графических интерфейсов. Это та область, где была особенно сильна конкурирующая Gemini 3 Pro — теперь разрыв как минимум сократится.

GPT-5.2 уже начали запускать в ChatGPT для подписчиков Plus, Pro, Business и Enterprise — но учитывайте, что полная раскатка модели может занять до нескольких дней. Цена в API составляет $1.75 за миллион входящих токенов и $14 за миллион исходящих токенов при скидке в 90% за кэшированные токены.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.