«6/10 за строгость доказательства»: математики оценили, как GPT-5.2 Pro решает исследовательские задачи / Хабр

Кен Оно, профессор математики из Университета Вирджинии, поставил решениям GPT-5.2 Pro оценку "6/10 за строгость доказательства — как PhD-студенту". Но контекст важен: речь о задачах FrontierMath Tier 4, на которых модель OpenAI набрала 31% — новый рекорд среди всех ИИ-систем. До появления GPT-5.2 лучший результат составлял 19%.

FrontierMath Tier 4 — это 48 задач исследовательского уровня, созданных профессорами и постдоками. На решение типичной задачи у математика уходят часы и дни, на самые сложные — недели. GPT-5.2 Pro решил 15 из них, причем 4 задачи не поддавались ни одной модели до этого теста.

Epoch AI тестировали модель вручную через веб-интерфейс ChatGPT — автоматическая оценка через API не работала из-за таймаутов. В конце декабря та же модель через API набрала 29% (14 задач), сейчас вручную — 31% (15 задач). Но главная ценность нового теста — не в дополнительном проценте, а в том, что математики впервые подробно разобрали, как именно модель приходит к решениям.

Помимо Оно, решения оценили еще три математика. Джоэл Хасс из UC Davis отметил, что модель распознала геометрию поверхности по полиномиальному уравнению и решила даже усложненную версию задачи через метод аппроксимации. Дэн Ромик, тоже из UC Davis, сказал, что заложил в задачу несколько слоев сложности — и модель преодолела все, хо��я даже эксперту потребовалось бы значительное усилие. Джей Пантоне из Университета Маркетт признал решения валидными, но заметил: модель обошла самые трудные части благодаря тому, что финальный ответ должен быть числом.

Отдельно Epoch AI проверили, не переобучилась ли модель на известных задачах. OpenAI имеет доступ к решениям 28 из 48 задач, остальные 20 держатся в секрете. GPT-5.2 Pro показал 18% на "известных" задачах и 50% на секретных — признаков переобучения нет.

Всего за все время существования бенчмарка модели разных разработчиков решили 17 из 48 задач Tier 4. Это 35% — бенчмарк еще далек от насыщения и продолжит показывать разницу между поколениями ИИ.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

«6/10 за строгость доказательства»: математики оценили, как GPT-5.2 Pro решает исследовательские задачи

Другие новости

Ближайшие события