Год назад лучшие языковые модели решали около 2% задач бенчмарка FrontierMath. 30 декабря 2025 года GPT-5.2 Pro от OpenAI заняла первое место в самой сложной категории этого бенчмарка — Tier 4 — с результатом 29.2%. Предыдущий лидер, Gemini 3 Pro Preview от Google, набрал 18.8%. На базовом наборе задач (Tier 1-3) модели OpenAI тоже лидируют: GPT-5.2 Thinking показывает 40.7% против 37.6% у Gemini 3 Pro.

FrontierMath — бенчмарк от Epoch AI, состоящий из нескольких сотен оригинальных математических задач. Их создавали и проверяли профессиональные математики. Tier 4 — это 50 особо сложных задач из области теории чисел, алгебраической геометрии, теории категорий и других разделов. На решение типичной задачи у исследователя уходит несколько часов, а на самые трудные — несколько дней. GPT-5.2 Pro решил 14 из 48 приватных задач этого уровня.

Отрыв от остальных конкурентов еще более значителен. Claude Opus 4.5 от Anthropic пока показывает 4.2% на Tier 4 — это 2 решенные задачи из 48. На Tier 1-3 картина похожая: Claude Opus 4.5 решает около 21% задач, отставая от лидеров почти вдвое. Но и цена не маленькая: за доступ к GPT-5.2 Pro через API OpenAI просит $21 за миллион входных токенов и $168 за миллион выходных — это одна из самых дорогих моделей на рынке.

Прогресс на FrontierMath уже выходит за рамки бенчмарков. В недавней работе исследователи Марк Селке и Стивен Ин опубликовали статью о проблеме монотонности в статистической теории обучения, где все доказательства получены вариантами GPT-5.2 Pro — люди только формулировали задачи и проверяли результаты. На Reddit обсуждают прогноз исследователя из xAI о появлении "сверхчеловеческого математика" к июню 2026 года. Учитывая темпы прогресса — от 2% до 29% за год — сообществу это уже не кажется фантастикой.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.