Roman_Evgeniyevich 2 мая в 08:38

GPT решает профильную математику (ЕГЭ)

Средний

3 мин

20K

Математика*Искусственный интеллект

Из песочницы

+19

Комментарии 39

MasterMentor 2 мая в 09:54

Чат Жэпэтэ то, чат Жэпэтэ сё... Ждем не дождемся, когда уже "чат Жэпэтэ" кормить начнёт. Вот лежишь на диване: а он тебе булки в рот запихивает. :)

PS А это для практиков:

Инструкция по работе с ИИ LLM

======================
ИНСТРУКЦИЯ (по работе с ИИ LLM)
======================

1. Мультиагентный ролевой подход:
Основная идея: Распределение задачи между несколькими ролями с чётким разделением функций.
Реализация:
а) Определить ключевые аспекты задачи
б) Назначить отдельную роль для каждого аспекта
в) Сформулировать запрос в формате:
"Как [роль 1], выполни [действие 1]. Как [роль 2], сделай [действие 2]..."

2. Цепочка размышлений
Основная идея: Построение причинно-следственных цепочек с обязательной проверкой каждого логического перехода
Реализация:
а) Разбить задачу на шаги
б) Для каждого шага указать:
Причину (почему этот шаг необходим)
Следствие (что даёт выполнение шага)
Проверку согласованности с предыдущими шагами

3. Основная идея: Использование псевдокода или реального кода для структурирования логических операций
Реализация:
а) Сформулировать задачу в виде функции
б) Описать входные/выходные параметры
в) Реализовать алгоритм решения на определённом синтаксисе

4. Дерево мыслей
Основная идея: Построение альтернативных ветвей решения с последующим выбором оптимального пути
Реализация:
а) Генерировать 2-3 варианта решения для каждой подзадачи
б) Оценивать каждый вариант по критериям:
Точность
Ресурсоёмкость
Время выполнения

5. Контрастный промтинг
Основная идея: Параллельная генерация правильных и ошибочных ответов для усиления критического мышления модели
Реализация:
а) Запросить правильный ответ
б) Запросить намеренно неверный ответ
в) Сравнить оба варианта

6. Метод уверенности
Основная идея: Количественная оценка уверенности модели в правильности ответа
Реализация:
а) Запросить ответ с указанием уверенности по шкале 1-10
б) При уверенности <7 предложить альтернативные варианты

Шаги 1-3 обязательны.

Proscrito 2 мая в 10:35

Он нас кормить, а мы ему что? Дармоеды никому не нужны.

MasterMentor 2 мая в 11:05

Статьи в блогах. Про то какой он умный и как он всё сделает за нас. :)

event1 2 мая в 16:27

А мы ему электричество. Вы Матрицу не смотрели, что ли?

Proscrito 4 мая в 17:22

При всем уважении к эпохальной картине, именно нюанс с энергетикой из рук вон плох. Физика в этом месте вышла из чата. Если это все, что мы можем предложить взамен, боюсь у меня плохие новости ((

ovelx 6 мая в 07:26

Мы же ему не энергию даём, а предоставляем вычислительную мощность, этакий микрореактор с приемлемым ЦПУ и ГПУ на биотопливе и химических процессах

onehell 2 мая в 18:16

Интересно. Можете раскрыть происхождение инструкции?

MasterMentor 4 мая в 16:52

Выжимка основного от сюда

https://www.youtube.com/watch?v=cMR2c3vQRAc

MainEditor0 2 мая в 11:07

LLM же решила пойти через координаты и вектора. Довольно нетривиальное решение!

На самом деле это вполне логичный шаг, потому что решение стереометрии через координатно-векторный метод более алгоритмичное и простое, потому что есть базовый набор правил и инструментов, которые могут раздробить практически любую задачу — если надо что-то найти, то просто используешь готовый паттерн (собственно, поэтому LLM охотнее выбрала именно этот метод, потому что тут паттерны в данных прямо-таки торчат во все стороны), и всё решается по формулам. Однако по-честному вводить этот инструментарий является уже более нетривиальной задачей, чем просто использовать его.

vened 2 мая в 11:39

На самом деле это вполне логичный шаг, потому что решение стереометрии через координатно-векторный метод более алгоритмичное и простое

Вот если бы ещё и верное решение тут было, а так-то - да: ответ для демоверсии совпал - 99 баллов.

Human_1988 2 мая в 11:38

По 19 заданию есть вопросы. Всё же неплохо было бы выделить правила

a(n+1)=a(n)+b(n) и b(n+1)=a(n)-b(n)

a(n+2)=2*a(n) и b(n+2)=2*b(n)

чего сеть не сделала, а прямым перебором попыталась решить.

Выделив эти правила можно более аккуратно показать, что ответ в пункте б невозможен для любых a не кратных 100 и 101 для начальной пары (100,1)

Аналогично в пункте в доказательство можно сделать более общим и строгим

k здесь номер итерации.

Вот если бы сеть ещё и эти правила сначала вывела, а потом использовала, было бы совсем хорошо

Roman_Evgeniyevich 3 мая в 14:44

GPT написал ключевую идею до решения, поскольку сама модель не сочла этот текст за часть решения, я это не включил)

vened 2 мая в 12:17

Со 2-й частью модель справилась отлично

Излишне оптимистичное утверждение. Это лишь "синонимизация" решений демоверсии ФИПИ, только с ошибками. Посмотрите на решения повнимательнее. Например, в стереометрии:

"Стороны параллелограмма имеют длины 3 и $2\frac{\sqrt{3}}{3}$ " (неверно), угол не рассмотрен, но площадь "через векторное произведение" равна 3 (чтобы как в ответе, видимо).

Roman_Evgeniyevich 3 мая в 21:38

согласен, увидел ошибку, спасибо! Также прочёл вашу статью про тавтологическое переписывание. Действительно, такое случается, когда модель не может ответить на вопрос с текущими данными или ей не хватает контекстного окна. В моём случае с 14 задачей, когда я её дополнительно попросил объяснить решение, выяснилось, что были подобраны неверные координаты точек тетраедра, в итоге ответ был дан верный.
Также стоит добавить, что такого рода математические задачи стоит решать желательно в рассуждающих моделях, таких как GPT o3, o4-mini-high, o4-mini. DeepSeek часто ошибался в расчётах, не могу рекомендовать. GPT 4o тоже не так четко отвечает, если не попросить ее порассуждать или записать решение шаг за шагом.

vened 4 мая в 09:53

Спасибо.

HellQwer 2 мая в 16:05

Вопрос по балам: зачем уменьшать детализацию на верхнем конце, при том, что, насколько я понимаю, в некоторых вузах есть проблема с обилием студентов с высокими баллами? При этом <40-50, скорее всего, бессмысленны. Чтобы маленькие косяки сглаживались и не было обидно?

Roman_Evgeniyevich 3 мая в 21:44

могу предположить, что это связано с чётким разделением на 2 части: при практически полном выполнении 1 части вы получите уже более 60 баллов, далее заработать каждый балл во 2 части довольно сложно, решить 100% всё практически невозможно.

event1 2 мая в 16:31

Два вопроса, если можно. Во-первых, не очень понятно почему 19-ая задача:

вызывает трудности у учеников с обычным уровнем подготовки

Там же тупо два арифметических действия повторяются несколько раз. Даже выводить ничего не надо. Или я излишне оптимистичен по поводу "обычного уровня подготовки?"

Во-вторых, а этот самый гпт прямо все красивые символы и скобочки так прямо и рисует? Или это вы доработали?

sgjurano 2 мая в 16:48

Так и рисует, сразу в LaTeX.

Human_1988 2 мая в 19:38

Проверял на o3, усложнëнную версию задачи решает:

<spoiler title="Скриншоты">

</spoiler>

trinxery 2 мая в 19:55

>два экрана скриншотов

Ну вы же могли скопировать текстом.

Roman_Evgeniyevich 3 мая в 21:49

пробовал в LaTeX закинуть, не получилось.. Буду рад, если подскажете как это можно тут встроить, на гитхаб через .md всё легко пишется

trinxery 3 мая в 23:45

Вставлять Latex в комментарии? Переключите редактор в markdown-режим (справа снизу от поля ввода), дальше см. https://habr.com/ru/docs/help/markdown/. Inline — как $text$ ( text ), абзацем как $$text$$

Roman_Evgeniyevich 4 мая в 07:03

Благодарю!

lightln2 3 мая в 14:57

при операции (a,b) -> (a+b, a-b) наибольший общий делитель не меняется

как это не меняется? (5, 1) -> (6, 4)

Human_1988 3 мая в 18:43

Вы взяли первые пары цепочки, наверное она имела в виду, что с некоторого n (а конкретно начиная с 3 пары гарантировано), общий делитель текущей и последующих пар будет сохраняться (не обязательно он будет наибольшим, в особенности для пар n и n+2 - общим делителем будет целиком число из пары n). А это действительно так, это очень хорошо, что сеть подметила и использовала, а предложенные вами пары и так уже начальные в цепочке, перед парой (5,1) может быть только пара (3,2). И далее, используя эту логику, найдя наибольший общий делитель (как раз с целью размотать цепочку до начала), она верно разматывает цепочку до самой первой пары. Формулирует мысли она криво, а по факту решила верно

helirium 3 мая в 07:53

Все математические символы чатжыпыт «рисует» самостоятельно

tsp1000 2 мая в 16:51

Все таки одного примера недостаточно, я считаю. Нужна статистика по сотням или тысячам решенных вариантов, написанных (сгенерированных программно) вручную, потому что в ру сегменте разборы решений есть и их много.

Green__Hat 2 мая в 19:17

Решает, факт. Всё, где нет картинок, бесплатная щелкает как орешки, интегралы рисует, закачаешься. Формулы, если его попинать, выдает в виде - прямо в ворд вставлять можно.

Всем хорош, но явно что-то замышляет

HellQwer 2 мая в 21:05

Интересно, из каких данных получено что ИИ разрабатывается не для замены людей 🤔 Всё-таки дискуссионный вопрос. Капитализм про максимизацию прибыли и если можно урезать фот до нуля без потерь - он будет урезан. При этом, наверняка, в интернетах много соответствующих обсуждений, так же как и в диалогах с самими моделями.

Vytian 2 мая в 23:36

Если фот=0, то кому продавать, на ком капитал зарабатывать, как клиента мотивировать участвовать в движухе?

Капитализм -- это про комиссию на транзакции, но в отличие от торговли, товар создается агентом и контрагентом совместно. Собственно, из-за этой несимметричной надстроечной сущности относительно умные люди на него батон крошили и крошат.

HellQwer 3 мая в 00:39

Когда предприниматель сокращает свои расходы, он не думает что это приводит к уменьшению мирового ВВП в общем, и количеству потребителей с деньгами в частности :) К тому же иногда важно оседлать волну, пробиться наверх, а потом можно сверху останавливать других вводить экологические нормы, замедляющие рост предприятий, налоги, сборы, квоты на сотрудников.

Разумеется, истинные мотивы неизвестны и, скорее всего, неоднородны. Мечтатель хочет светлого будущего, властный социопат доминирующего положения, игнорируя чувства людей, нарцисс - признания и громкости имени. Зачастую кажется, что из-за большого числа людей, задействованных в таких важных, революционных вещах, появляется эмерджентная сущность, имеющая свою "волю" не особо управляемая отдельными людьми (любителям заговоров кажется, что наоборот, есть скрытное, но жесткое управление). То есть мотивы отдельных людей, какими бы они ни были, игнорируются.

А ещё не важно какие истинные мотивы были у создателей, когда мы говорим про обучение нейросетки. Уверен, что несмотря на обилие антиваксерских материалов нейронка не "сомневается" в том, что правительство нас не чипирует и не облучает 5г чтобы мы все голосовали за Путина. Иначе были бы слышны полыхания в интернетах.

GidraVydra 3 мая в 02:32

Капитализм -- это про комиссию на транзакции, но в отличие от торговли, товар создается агентом и контрагентом совместно

Ого, оказывается в СССР был капитализм, что бы это не значило.

Pshir 3 мая в 10:47

Капитализм про максимизацию прибыли и если можно урезать фот до нуля без потерь - он будет урезан.

Собственно, уже. Школьники уже вовсю пользуются LLM для списывания задачек, вместо помощи людей, чтобы не платить им. Получается, правда, фигня, по которой сразу видно, что школьник в решении не участвовал.

Pshir 2 мая в 19:37

Однако стоит сказать, что если бы я указал точные координаты векторов он бы точно решил данную задачу.

Если бы вы ему дали точный ответ, то он бы тоже точно решил данную задачу. Только вот в чём смысл этого действия? Если школьник умеет определять координаты вектора, то уж сложить их он тоже сумеет.

В 13 задаче сразу видно, что решение писала LLM. Она сначала пишет вывод, а только потом три строчки преобразований, с помощью которых она пришла к этому выводу.

В 14 задаче для решения пункта а) используется барицентр, и очень сомнительно, что в школьном учебнике про него написано, а в решении ничего про него не доказано. В пункте б) первая же строчка лишена логики (что неудивительно для LLM). Далее, несколько недоказанных утверждений: о том, что плоскость параллельна AD и BC; о том, что LKPQ - параллелограмм. Дальше просто следуют взятые с потолка числа. Результат векторного произведения тоже взят с потолка, так как координат векторов не приведено. По итогу в пункте б) решения нет вообще.

В 19 задаче в пункте б) нужно доказать, что первое число всегда возрастает. В пункте в) надо доказать, что при дальнейшем движении назад мы не получим снова натуральную пару.

Human_1988 3 мая в 19:10

По 19 задаче по пункту б доказательство возрастания a тривиально следует из того, что последующее a - это сумма предыдущего положительного a и положительного b.

В пункте в по условию задачи, из того, что a и b натуральны, а новые пары получаются только с помощью сложения и вычитания, мы не сможем выйти из кольца целых чисел. Вероятно она это неявно подразумевает, что натолкнувшись на дробные числа, мы уже выходим за пределы начальной пары

Human_1988 3 мая в 21:35

Даже более того, добавлю, по правилу ((a+b)/2;(a-b)/2) Вы из пары с дробными положительными значениями a и b никак не получите пару с натуральными значениями, если нужно могу строгое математическое доказательство предоставить

А то что b всегда будет положительно можно легко по индукции доказать, также если необходимо могу доказательство привести

Knkplua 3 мая в 22:05

Попробовал эти задачи на Gemini 2.5 и Sonet 3.7. И та, и другая решили задачу 11, но с 2 и 8 так же не справились. Gemini, решая задачу 18, угадала все буквы, но не смогла назвать слово:

Объединяя значения a, при которых множество x-координат имеет размер 2: a=−13, a=−9, (−9,−5), a=−5, (−5,3).
Объединение: [−13,3).

Когда попросил подумать еще, получилось еще интереснее:

Объединение этих значений: {−13}∪{−9}∪{−5}∪(−5,3).
Это множество можно записать как {−13}∪[−9,3).
Ответ: [−13,3).

GrigLog 4 мая в 19:16

Пункт (б) последнего задания не решен. Было выписано несколько примеров, среди которых не встретилась искомая пара чисел, однако не было доказано, что она не может встретиться в дальнейшем.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий