Мне давно хотелось проверить текущий уровень языковых моделей от Open ai на целом наборе математических задач, только на уровне ЕГЭ.

Я уже имею достаточно большой опыт работы с GPT-o3-mini high, даже та модель справлялась с задачами олимпиадного уровня, о чём будет дальнейшая статья (надеюсь).

Но сейчас про ЕГЭ. Как многие знают, профильный ЕГЭ по математике делится на 2 части: 1 с кратким ответом и 2-ая, где необходимо полное и обоснованное решение.

1 часть

Здесь GPT сделал 3 ошибки: во 2, 8 и 11 задачах. Рассмотрим сначала эти задачи

2 задание

Источник: Демоверсия ЕГЭ 2025: ФИПИ

Вот, что ответила модель GPT-o4 mini high:

ответ

Как можно наблюдать, анализ изображения дал неверные координаты точек начала и конца векторов. Однако стоит сказать, что если бы я указал точные координаты векторов он бы точно решил данную задачу.

8 задание

В данном задании всего-то нужно было найти такие точки, y которых положителен. Именно из-за того, что с анализом самого графика у модели имеются проблемы -данную задачу тоже не удалось решить

Решение:

Последнее задание, где была ошибка, также на графике:

Здесь была настоящая галлюцинация: анализ изображения показал фантомную точку B:

Остальные задачи на вычисления были решены абсолютно верно, с чем можно поздравить модель!

2 часть

Во второй части как таковых ошибок не было, ведь все задачи были даны не в графике (даже планиметрия интерпретировалась через текстовое условие). Разберём все задачи.

Изначально в чате был дан следующий промпт:

Привет, реши задачу, критерии записи решения на картинке. поставь в конце себе балл за решение

Также каждый раз я прикреплял фото задачи и критериев к решению, чтобы ответ был максимально соответствующим требованиям.

13 задание

отлично упростил уравнение!
получен верный ответ, да еще и указал 2 возможных формы записи корней
Все решено верно! далее был виписан итоговый ответ и GPT себе поставил 2 балла)

14 задание

доказать пункт "а" довольно просто через рб треугольники (свойство медианы, проведённой из вершины р/б треугольника)
Решение пункта "а". LLM же решила пойти через координаты и вектора. Довольно нетривиальное решение!
опять же, решение через вектора.. Ответ правильный, но...

UPD: Пункт б языковая модель каким-то образом довела до правильного ответа, но значение стороны LP оказалось неверным, возможно здесь GPT "решил" подвести решение к верному ответу. Спасибо @vened за нахождение ошибки и за эту статью, объясняющую, почему так происходит. Итого по критериям оценивания ставлю 1 балл из 3 за неверное нахождение площади сечения.

15 задание

Решение данной задачи оказалось также правильным, за исключением иррациональности в знаменателе

16 задание

для 16 задачи желательно использовать таблицу для наглядного понимания модели платежей, однако так тоже вполне можно

Ответ получился верным, решение частично совпадает с фипишным решением.

17 задание

В данной задаче поначалу были сомнения, поскольку было трудно представить, что модель способна "представить" геометрическую задачу и разобаться в ней. Опасения были напрасны, пункты а и б решены полностью:

В пункте б использована теорема Птолемея без доказательств, по данному источнику так можно, значит решение считается верным.

18 задание

Модель разбивает решение задачи на 2 случая, что вполне логично:

1-й случай с конем
2 случай
ответ и баллы за решение

19 задание

Решение данной задачи вызывает трудности у учеников с обычным уровнем подготовки, однако GPT справляется со всеми пунктами:

решение а) и б)
пункт в) и ответ.

Выводы

Как можно заметить, текущая версия GPT o4-mini-high хорошо справляется с задачами по профильной математике, однако только с теми, в которых чётко прописано условие и нет прямой задачи с анализом именно изображения. На данный момент могу рекомендовать самостоятельный анализ изображения, например, как во 2-м задании с векторами - вручную писать координаты векторов, либо использовать другие модели. В 8 задаче также - можно спросить, например, какие точки должны подходить и уже самому находить их. В 11 задаче рекомендую сначала спросить: "что нужно для точного решения", а затем уже писать координаты точек параболы и функции прямой.

Со 2-й частью модель справилась (за исключением пункта б 14 задачи), виден большой потенциал в решении более сложных задач.

Баллы за решения

Итого за 1 и 2 часть модель набрала 27 первичных баллов из 32 (3 балла сняты за неверные решения 3-х задач 1 части и 2 за неправильно решённый пункт б 14 задачи).

Если переводить в тестовый балл - это 97 баллов.