Roman_Evgeniyevich May 2 at 05:38

GPT решает профильную математику (ЕГЭ)

Medium

3 min

21K

Mathematics * Artificial Intelligence

From sandbox

+19

Comments 39

MasterMentor May 2 at 06:54

Чат Жэпэтэ то, чат Жэпэтэ сё... Ждем не дождемся, когда уже "чат Жэпэтэ" кормить начнёт. Вот лежишь на диване: а он тебе булки в рот запихивает. :)

PS А это для практиков:

Инструкция по работе с ИИ LLM

======================
ИНСТРУКЦИЯ (по работе с ИИ LLM)
======================

1. Мультиагентный ролевой подход:
Основная идея: Распределение задачи между несколькими ролями с чётким разделением функций.
Реализация:
а) Определить ключевые аспекты задачи
б) Назначить отдельную роль для каждого аспекта
в) Сформулировать запрос в формате:
"Как [роль 1], выполни [действие 1]. Как [роль 2], сделай [действие 2]..."

2. Цепочка размышлений
Основная идея: Построение причинно-следственных цепочек с обязательной проверкой каждого логического перехода
Реализация:
а) Разбить задачу на шаги
б) Для каждого шага указать:
Причину (почему этот шаг необходим)
Следствие (что даёт выполнение шага)
Проверку согласованности с предыдущими шагами

3. Основная идея: Использование псевдокода или реального кода для структурирования логических операций
Реализация:
а) Сформулировать задачу в виде функции
б) Описать входные/выходные параметры
в) Реализовать алгоритм решения на определённом синтаксисе

4. Дерево мыслей
Основная идея: Построение альтернативных ветвей решения с последующим выбором оптимального пути
Реализация:
а) Генерировать 2-3 варианта решения для каждой подзадачи
б) Оценивать каждый вариант по критериям:
Точность
Ресурсоёмкость
Время выполнения

5. Контрастный промтинг
Основная идея: Параллельная генерация правильных и ошибочных ответов для усиления критического мышления модели
Реализация:
а) Запросить правильный ответ
б) Запросить намеренно неверный ответ
в) Сравнить оба варианта

6. Метод уверенности
Основная идея: Количественная оценка уверенности модели в правильности ответа
Реализация:
а) Запросить ответ с указанием уверенности по шкале 1-10
б) При уверенности <7 предложить альтернативные варианты

Шаги 1-3 обязательны.

Proscrito May 2 at 07:35

Он нас кормить, а мы ему что? Дармоеды никому не нужны.

MasterMentor May 2 at 08:05

Статьи в блогах. Про то какой он умный и как он всё сделает за нас. :)

event1 May 2 at 13:27

А мы ему электричество. Вы Матрицу не смотрели, что ли?

Proscrito May 4 at 14:22

При всем уважении к эпохальной картине, именно нюанс с энергетикой из рук вон плох. Физика в этом месте вышла из чата. Если это все, что мы можем предложить взамен, боюсь у меня плохие новости ((

ovelx May 6 at 04:26

Мы же ему не энергию даём, а предоставляем вычислительную мощность, этакий микрореактор с приемлемым ЦПУ и ГПУ на биотопливе и химических процессах

onehell May 2 at 15:16

Интересно. Можете раскрыть происхождение инструкции?

MasterMentor May 4 at 13:52

Выжимка основного от сюда

https://www.youtube.com/watch?v=cMR2c3vQRAc

MainEditor0 May 2 at 08:07

LLM же решила пойти через координаты и вектора. Довольно нетривиальное решение!

На самом деле это вполне логичный шаг, потому что решение стереометрии через координатно-векторный метод более алгоритмичное и простое, потому что есть базовый набор правил и инструментов, которые могут раздробить практически любую задачу — если надо что-то найти, то просто используешь готовый паттерн (собственно, поэтому LLM охотнее выбрала именно этот метод, потому что тут паттерны в данных прямо-таки торчат во все стороны), и всё решается по формулам. Однако по-честному вводить этот инструментарий является уже более нетривиальной задачей, чем просто использовать его.

vened May 2 at 08:39

На самом деле это вполне логичный шаг, потому что решение стереометрии через координатно-векторный метод более алгоритмичное и простое

Вот если бы ещё и верное решение тут было, а так-то - да: ответ для демоверсии совпал - 99 баллов.

Human_1988 May 2 at 08:38

По 19 заданию есть вопросы. Всё же неплохо было бы выделить правила

a(n+1)=a(n)+b(n) и b(n+1)=a(n)-b(n)

a(n+2)=2*a(n) и b(n+2)=2*b(n)

чего сеть не сделала, а прямым перебором попыталась решить.

Выделив эти правила можно более аккуратно показать, что ответ в пункте б невозможен для любых a не кратных 100 и 101 для начальной пары (100,1)

Аналогично в пункте в доказательство можно сделать более общим и строгим

k здесь номер итерации.

Вот если бы сеть ещё и эти правила сначала вывела, а потом использовала, было бы совсем хорошо

Roman_Evgeniyevich May 3 at 11:44

GPT написал ключевую идею до решения, поскольку сама модель не сочла этот текст за часть решения, я это не включил)

vened May 2 at 09:17

Со 2-й частью модель справилась отлично

Излишне оптимистичное утверждение. Это лишь "синонимизация" решений демоверсии ФИПИ, только с ошибками. Посмотрите на решения повнимательнее. Например, в стереометрии:

"Стороны параллелограмма имеют длины 3 и $2\frac{\sqrt{3}}{3}$ " (неверно), угол не рассмотрен, но площадь "через векторное произведение" равна 3 (чтобы как в ответе, видимо).

Roman_Evgeniyevich May 3 at 18:38

согласен, увидел ошибку, спасибо! Также прочёл вашу статью про тавтологическое переписывание. Действительно, такое случается, когда модель не может ответить на вопрос с текущими данными или ей не хватает контекстного окна. В моём случае с 14 задачей, когда я её дополнительно попросил объяснить решение, выяснилось, что были подобраны неверные координаты точек тетраедра, в итоге ответ был дан верный.
Также стоит добавить, что такого рода математические задачи стоит решать желательно в рассуждающих моделях, таких как GPT o3, o4-mini-high, o4-mini. DeepSeek часто ошибался в расчётах, не могу рекомендовать. GPT 4o тоже не так четко отвечает, если не попросить ее порассуждать или записать решение шаг за шагом.

vened May 4 at 06:53

Спасибо.

HellQwer May 2 at 13:05

Вопрос по балам: зачем уменьшать детализацию на верхнем конце, при том, что, насколько я понимаю, в некоторых вузах есть проблема с обилием студентов с высокими баллами? При этом <40-50, скорее всего, бессмысленны. Чтобы маленькие косяки сглаживались и не было обидно?

Roman_Evgeniyevich May 3 at 18:44

могу предположить, что это связано с чётким разделением на 2 части: при практически полном выполнении 1 части вы получите уже более 60 баллов, далее заработать каждый балл во 2 части довольно сложно, решить 100% всё практически невозможно.

event1 May 2 at 13:31

Два вопроса, если можно. Во-первых, не очень понятно почему 19-ая задача:

вызывает трудности у учеников с обычным уровнем подготовки

Там же тупо два арифметических действия повторяются несколько раз. Даже выводить ничего не надо. Или я излишне оптимистичен по поводу "обычного уровня подготовки?"

Во-вторых, а этот самый гпт прямо все красивые символы и скобочки так прямо и рисует? Или это вы доработали?

sgjurano May 2 at 13:48

Так и рисует, сразу в LaTeX.

Human_1988 May 2 at 16:38

Проверял на o3, усложнëнную версию задачи решает:

<spoiler title="Скриншоты">

</spoiler>

trinxery May 2 at 16:55

>два экрана скриншотов

Ну вы же могли скопировать текстом.

Roman_Evgeniyevich May 3 at 18:49

пробовал в LaTeX закинуть, не получилось.. Буду рад, если подскажете как это можно тут встроить, на гитхаб через .md всё легко пишется

trinxery May 3 at 20:45

Вставлять Latex в комментарии? Переключите редактор в markdown-режим (справа снизу от поля ввода), дальше см. https://habr.com/ru/docs/help/markdown/. Inline — как $text$ ( text ), абзацем как $$text$$

Roman_Evgeniyevich May 4 at 04:03

Благодарю!

lightln2 May 3 at 11:57

при операции (a,b) -> (a+b, a-b) наибольший общий делитель не меняется

как это не меняется? (5, 1) -> (6, 4)

Human_1988 May 3 at 15:43

Вы взяли первые пары цепочки, наверное она имела в виду, что с некоторого n (а конкретно начиная с 3 пары гарантировано), общий делитель текущей и последующих пар будет сохраняться (не обязательно он будет наибольшим, в особенности для пар n и n+2 - общим делителем будет целиком число из пары n). А это действительно так, это очень хорошо, что сеть подметила и использовала, а предложенные вами пары и так уже начальные в цепочке, перед парой (5,1) может быть только пара (3,2). И далее, используя эту логику, найдя наибольший общий делитель (как раз с целью размотать цепочку до начала), она верно разматывает цепочку до самой первой пары. Формулирует мысли она криво, а по факту решила верно

helirium May 3 at 04:53

Все математические символы чатжыпыт «рисует» самостоятельно

tsp1000 May 2 at 13:51

Все таки одного примера недостаточно, я считаю. Нужна статистика по сотням или тысячам решенных вариантов, написанных (сгенерированных программно) вручную, потому что в ру сегменте разборы решений есть и их много.

Green__Hat May 2 at 16:17

Решает, факт. Всё, где нет картинок, бесплатная щелкает как орешки, интегралы рисует, закачаешься. Формулы, если его попинать, выдает в виде - прямо в ворд вставлять можно.

Всем хорош, но явно что-то замышляет

HellQwer May 2 at 18:05

Интересно, из каких данных получено что ИИ разрабатывается не для замены людей 🤔 Всё-таки дискуссионный вопрос. Капитализм про максимизацию прибыли и если можно урезать фот до нуля без потерь - он будет урезан. При этом, наверняка, в интернетах много соответствующих обсуждений, так же как и в диалогах с самими моделями.

Vytian May 2 at 20:36

Если фот=0, то кому продавать, на ком капитал зарабатывать, как клиента мотивировать участвовать в движухе?

Капитализм -- это про комиссию на транзакции, но в отличие от торговли, товар создается агентом и контрагентом совместно. Собственно, из-за этой несимметричной надстроечной сущности относительно умные люди на него батон крошили и крошат.

HellQwer May 2 at 21:39

Когда предприниматель сокращает свои расходы, он не думает что это приводит к уменьшению мирового ВВП в общем, и количеству потребителей с деньгами в частности :) К тому же иногда важно оседлать волну, пробиться наверх, а потом можно сверху останавливать других вводить экологические нормы, замедляющие рост предприятий, налоги, сборы, квоты на сотрудников.

Разумеется, истинные мотивы неизвестны и, скорее всего, неоднородны. Мечтатель хочет светлого будущего, властный социопат доминирующего положения, игнорируя чувства людей, нарцисс - признания и громкости имени. Зачастую кажется, что из-за большого числа людей, задействованных в таких важных, революционных вещах, появляется эмерджентная сущность, имеющая свою "волю" не особо управляемая отдельными людьми (любителям заговоров кажется, что наоборот, есть скрытное, но жесткое управление). То есть мотивы отдельных людей, какими бы они ни были, игнорируются.

А ещё не важно какие истинные мотивы были у создателей, когда мы говорим про обучение нейросетки. Уверен, что несмотря на обилие антиваксерских материалов нейронка не "сомневается" в том, что правительство нас не чипирует и не облучает 5г чтобы мы все голосовали за Путина. Иначе были бы слышны полыхания в интернетах.

GidraVydra May 2 at 23:32

Капитализм -- это про комиссию на транзакции, но в отличие от торговли, товар создается агентом и контрагентом совместно

Ого, оказывается в СССР был капитализм, что бы это не значило.

Pshir May 3 at 07:47

Капитализм про максимизацию прибыли и если можно урезать фот до нуля без потерь - он будет урезан.

Собственно, уже. Школьники уже вовсю пользуются LLM для списывания задачек, вместо помощи людей, чтобы не платить им. Получается, правда, фигня, по которой сразу видно, что школьник в решении не участвовал.

Pshir May 2 at 16:37

Однако стоит сказать, что если бы я указал точные координаты векторов он бы точно решил данную задачу.

Если бы вы ему дали точный ответ, то он бы тоже точно решил данную задачу. Только вот в чём смысл этого действия? Если школьник умеет определять координаты вектора, то уж сложить их он тоже сумеет.

В 13 задаче сразу видно, что решение писала LLM. Она сначала пишет вывод, а только потом три строчки преобразований, с помощью которых она пришла к этому выводу.

В 14 задаче для решения пункта а) используется барицентр, и очень сомнительно, что в школьном учебнике про него написано, а в решении ничего про него не доказано. В пункте б) первая же строчка лишена логики (что неудивительно для LLM). Далее, несколько недоказанных утверждений: о том, что плоскость параллельна AD и BC; о том, что LKPQ - параллелограмм. Дальше просто следуют взятые с потолка числа. Результат векторного произведения тоже взят с потолка, так как координат векторов не приведено. По итогу в пункте б) решения нет вообще.

В 19 задаче в пункте б) нужно доказать, что первое число всегда возрастает. В пункте в) надо доказать, что при дальнейшем движении назад мы не получим снова натуральную пару.

Human_1988 May 3 at 16:10

По 19 задаче по пункту б доказательство возрастания a тривиально следует из того, что последующее a - это сумма предыдущего положительного a и положительного b.

В пункте в по условию задачи, из того, что a и b натуральны, а новые пары получаются только с помощью сложения и вычитания, мы не сможем выйти из кольца целых чисел. Вероятно она это неявно подразумевает, что натолкнувшись на дробные числа, мы уже выходим за пределы начальной пары

Human_1988 May 3 at 18:35

Даже более того, добавлю, по правилу ((a+b)/2;(a-b)/2) Вы из пары с дробными положительными значениями a и b никак не получите пару с натуральными значениями, если нужно могу строгое математическое доказательство предоставить

А то что b всегда будет положительно можно легко по индукции доказать, также если необходимо могу доказательство привести

Knkplua May 3 at 19:05

Попробовал эти задачи на Gemini 2.5 и Sonet 3.7. И та, и другая решили задачу 11, но с 2 и 8 так же не справились. Gemini, решая задачу 18, угадала все буквы, но не смогла назвать слово:

Объединяя значения a, при которых множество x-координат имеет размер 2: a=−13, a=−9, (−9,−5), a=−5, (−5,3).
Объединение: [−13,3).

Когда попросил подумать еще, получилось еще интереснее:

Объединение этих значений: {−13}∪{−9}∪{−5}∪(−5,3).
Это множество можно записать как {−13}∪[−9,3).
Ответ: [−13,3).

GrigLog May 4 at 16:16

Пункт (б) последнего задания не решен. Было выписано несколько примеров, среди которых не встретилась искомая пара чисел, однако не было доказано, что она не может встретиться в дальнейшем.