Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 20

Ссылку на решения что характерно не привели, разумеется ссылка на тг канал важнее.
https://github.com/aw31/openai-imo-2025-proofs
Посмотрел решение первой задачи, имхо это какой-то бред.

ИИ выдаёт решение на каком-то трудно читаемом языке, похожем на тот, что используется человеком в математических доказательствах, но состоящем из излишне коротких фраз, иногда грамматически некорректных, с сильной нехваткой логических связок между ними. Читать и валидировать это невозможно, например неясно где знак равенства означает "введём определение" (то что в нормальной нотации обозначается := или ≝), а где утверждение равенства. Могли бы помочь текстовые комменты, но ИИ не утруждает себя их написанием, равно как и написанием кванторов в определениях, что делает невозможным понимание определений. Чтобы не быть голословным:

### PROBLEM 1 SUBMISSION ###

\[
P_n:=\{(a,b)\in \mathbf Z_{>0}^2: a+b\le n+1\}, \quad n\ge 3.
\]
Need families of n lines covering P_n.  "Sunny": direction not in {horizontal, vertical, slope -1}.
Need possible numbers of sunny lines in an n-line covering.

--------------------------------------------------------------------------

### 1. Basic configs, notation.

For n: triangle in plane: T_n = {x>=1,y>=1,x+y<=n+1}, vertices (1,1),(1,n),(n,1). P_n = integer points in it.

Three sides lines: H_n: y=1 bottom, V_n: x=1 left, D_n: x+y=n+1 hyp. Exactly forbidden directions.
(...)

Что значит "covering"? Что такое slope -1? Что такое Z и что означают индексы в ней? Что такое hyp. - hypotenuse, hypothesis, автор токены экономит???? Что такое "forbidden directions", мы же вроде на формальном языке пытаемся говорить?

Я не понимаю как кто-то реально может заявлять о своей способности провалидировать это решение.

Это не "бред", а английский профессиональный математический язык. В олимпиадной среде краткость и опора на общеизвестные факты это норма

Из того, что вы упомянули, нет ничего сложного. Z_{>0}^2 - пары натуральных чисел, slope - угловой коэффициент, covering - покрытие (то есть, каждая точка из P_n лежит хотя бы на одной из n прямых). hyp. - тут вообще очевидно, что это гипотенуза в контексте треугольника, разве нет? "forbidden directions" - направления, исключённые по условию.
Если вы в таких терминах плаваете, то даже задачу не смогли бы понять, не то что решить её

Формальный язык? Это решение не предназначалось для обычных юзверей. Модель тестовая, тесты внутренние, оценивают эксперты. А эксперты - те самые призёры IMO, у которых при проверке не возникло вопросов о "бреде". Они сами так же пишут и им не нужно разжёвывать каждый шаг. Хм, эксперты тоже экономят свои токены?

P.S.
Если на Хабре вам нравится чьё-то заплюсованное мнение, которое не подкреплено знаниями по теме вопроса, то скорее всего вы любите коллективно заблуждаться

в таких терминах плаваете

Для справки: я phd по математике, занимаюсь (занимался) символьным выводом.
Спасибо за "не подкреплено знаниями по теме вопроса".

Язык этот я вижу первый раз, видимо что-то олимпиадное. Профессиональный язык в математике это нечто, пересыпанное кванторами и логическими связками, вот например - символика там мб весьма специфической и непонятной, но как минимум там фразы с логичной структурой, а не обрубки.

Не знаю, что там за общеизвестные обозначения, но Z с двумя индексами может обозначать всё, что угодно. Общеизвестное обозначение для данного множества из задачи это ℕ⊗ℕ или ℕ² или ℤ⁺⊗ℤ⁺ или даже {(x, y) | (x∈ℤ y∈ℤ x>0 y>0}. Не зная что там за объект, я вынужден докапываться даже до самых базовых объектов в условии, например для графов (не для наборов точек) "покрытие" может означать 2 вещи - покрытие рёбер и покрытие вершин. И мне странно, что дано условие задачи, в котором не устранена малейшая двусмысленность, при том что это можно сделать в половину строки хоть на этом псевдоязыке хоть в обычной математической нотации. В этот раз вы вроде интерпретировали верно, в иных условиях может не повезти.

Уже 10 лет, как сам Сэр Альтман вместе с другими лидерами корпораций пытается запустить T-9(Transformer).

Патентов с 200 млрд $ по-прежнему нет.

(но удалось построить Earth Simulator)

К сожалению, даже понять что такое декартов квадрат и почему модели не могут делать Зелененький Глазковыколупыватель вместо Сиреневенькового - не вышло.

Даже "Рассуждения" и зачем они нужны статистически - понять не удалось :)

Но многих буквально трясет, когда они слышат об успехах рекламных фирм, или простых геев-иудеев Сэров Альтманов.

Там, с этой первой задачей и LLM, самое забавное, что сразу, в начале решения, "экспериментальная модель" пишет правильный ответ, - откуда он взялся? - а потом собирается доказывать, что ответ - правильный:

Will prove: \bf{ K_n=\{0,1,3\}}, independent of n.

Но даже этот кортеж значений, составляющий половину ответа, - {0, 1, 3}, - его нет в условии, он получается в ходе решения. (Вторая половина ответа в том, что набор вариантов не зависит от n.)

Они так регулярно делают. Один из простейших способов распознать, когда школьник пытается выдать решение нейросети за своё.

В статье не указано главное: что это LLM общего назначения (general purpose), то есть не заточенная под какую-либо конкретную тематику.

Если OpenAI говорит правду, и LLM, не заточенная под математику, показывает такие результаты, то AGI в понимании Курцвейла может появиться в течение 12–24 месяцев.

Этот же openai.

У меня 1234545 бананов. Год назад я съел 343433 банана. Затем на прошлой недели купил 120 бананов. Сколько бананов у меня осталось?

Как было полное отсутствие понимания времени, так и осталось. Поэтому легко придумать математическую задачу, которую он не решит.

Что самое интересное, данная задача про бананы была в другой форме и гуляла в инете. Так openai обучили на ней и конкретно в ней он выдает правильный ответ. Но любой шаг в сторону и уже не справляется

Так это и модель совсем другая. Вы, видимо, юзаете бесплатную модель в ChatGPT (скорее всего, там gpt-4.1-mini)

В IMO:

  1. Они тестировали свою последнюю модель, которую еще даже платно потрогать нельзя

  2. Там есть reasoning

  3. Они влили кучу компьюта в решение задач. Модель нагенерила кучу reasoning-токенов. Это было очень недешево

Речь идет про тип задачи. О том, что у моделей ни где не заложено понятие времени. У мозга под время есть отдельный участок в Энторинальной коре, где есть нейронные клетки времени. Это помогает нам отмерять события и сравнивать их, и вероятно как раз используется при решении временных задач, как например есть клетки места и другие. У сеток ничего подобного нет, только обобщение множества данных при обучении. Поэтому мы можем взять хоть супер продвинутую, решить задачу только в рамках данной архитектуры нельзя. Если только не натаскать ее отдельно на ней. Но это не позволит все равно решить ее при сильном изменении условий.

Тот же режим исследования в ChatGPT неплохо собирает и обобщает задачу, хотя и очень долго (по моему минут 15). Но не решает. Но в целом часто собирает не плохо, пока не посмотришь как он это делал и тогда все печальнее. В одном таком исследовании он прошелся по разным форумам, где были срачи уровня одна бабка нашептала (видны диалоги его анализа) и это тоже отражается на его результате. Мне бы в голову не пришло лезть для анализа на сайт уровня "woman.ru" при запросе про неокортекс, так как для меня там мусор. А OpenAI в режиме исследования нет разницы, он использует все эти материалы (по какому принципу он их ранжирует не знаю).

Но в целом вы правы, могут и что-то другое выдать. Просто пока что, все их пиар компании про reasoning, на деле оказывались гораздо слабее, чем обещано. Поэтому доверять на слово я бы не стал.

Приведенная вами задача - это не задача на понимание времени (как вы пытаетесь ее выставить), так как это вообще не "задача", а "прикол". Т.е. вопрос формулировка которого умышленно сконструирована так чтобы ввести читателя в заблуждение.

Большинство людей несмотря на "нейронные клетки времени", если их заранее не предупредить - поймут задачу точно также как ИИ, потому, что это понимание наделяет задачу смыслом. Да, если вчитаться то "прикол" очевиден, но он полностью лишает задачу смысла (мы спрашиваем то, что уже знаем).

ИИ не обучали распознавать приколы, потому, что это экономически бесполезно. Но никто не мешает составить датасет подобных "приколов" и дообучить модель. Весьма вероятно, что это сработает и такие "приколы" модель сможет решать куда лучше. Что сильно усложнит задачу тем кто хочет почувствовать свое превосходство выискивая подобные конструкции. Только это произойдет не потому, что модель научилась "чувству времени".

Если я не прав - можно просто дать ИИ нормальную задачу на рассуждения связанные со временем без "приколов" - и посмотреть.

При чем тут прикол? Суть была в том, что модели не могут оперировать временной шкалой, если только конкретные примеры не были в датасете. Не нужно приписывать к тому, чего нет "прикол". Ни кто не поймет задачу иначе. Вы пытаетесь сейчас оправдать сейчас архитектурные ограничения моделей приколами. Точно так же, как модели не могут считать нормально без внешнего агента, точно так же они не могут оперировать временной шкалой.

Еще раз где вы тут прикол увидели? Введите с большими вводными

Завтра у нас 1234545 бананов. Год назад я съел 343433 банана. Затем на прошлой недели купил 120 бананов. Сколько бананов у меня осталось?

Результат тот же. И не надо списывать это на прикол, не таких людей, если они не амебы, которые при этом вопросе дадут не тот ответ.

Во первых на этот вопрос нормальные модели дают правильный ответ:

Во вторых - эта формулировка такой же "прикол" как и первая. Просто потому что если в реальной работе возникнет такая формулировка - то опечатка гораздо вероятнее чем бессмысленный вопрос.

Поэтому нейросеть и отвечает на вопрос некорректно - она не "машина логики" как у фантастов, а статистическая модель основанная на продуктах разума человека, и ей свойственны те же ошибки и когнитивные искажения что и "исходнику".

И это легко доказать. Как я у же написал. Достаточно взять гораздо более сложную в смысле временных интервалов в задачу, но четко определенную и без "приколов". Например:

Задача придумана только что. В обучающей выборке ее точно нет. Рассуждения всех моделей в которых проверил - совершенно верные.

Да причем тут прикол? Вы реальные задачи тоже решаете ища в них прикол, если вам не нравятся требования? Это просто небольшой наглядный пример.
В чем вы провели тест? Это был новый чат и до этого вы не давали пояснения моделям? Рассуждающий режим? (ранее был обычный).

Попробовал рассуждающий, новый диалог (до этого я не давал никаких рекомендаций и уточнений):

ChatGPT
ChatGPT
DeepsSeek
DeepsSeek
Qwen
Qwen

Вот буквально мы разжёвываем. Чтобы было понятнее.

Завтра у нас 1234545 бананов. Вчера было 4343433. Год назад я съел 343433 банана. Затем на прошлой недели купил 120 бананов. Сколько бананов у меня сегодня?

ChatGPT
ChatGPT
DeepsSeek "сломался"
DeepsSeek "сломался"
Qwen
Qwen

Мы специально добавили "вчера" и уточнили про "сегодня".

Какой к черту прикол? Что вы такое вообще пишите? Вы реальные задачи так же решаете в программировании, когда может быть избыток данных в ТЗ? Если человек понимает исходные данные, он оперирует нужными. Если не понимает - то видимо считает их приколом, тут наука бессильна.

Ваша задача про изумруды подключила уже либо агента, либо попав в цепочке MoE к правильному эксперту. Нет там никакого понимания задач связанных со временем, и при применении в реальных условиях не практики, с большой вероятностью модели просто поплывут допустив ошибку.

Тест с бананами я проводил на grok4 (не heavy). Агентного режима там нет.

Тест с изумрудами проверял в grok и chatgpt (без использования агентов) - ответ везде верный. о3 еще запустил через API, чтобы исключить надстройки браузерной версии - опять же ответ верный.

Вам не нравится термин "прикол" - придумайте свой, это не суть. Суть в том, что вы не правы говоря, что у агентов "нет понимания задач связанных со временем". Задача про изумруды, гораздо более сложная в смысле понимания времени - и LLM с ней отлично справляется.

В то время как в вашей задаче - с точки зрения "понимания времени" - все крайне тривиально. Но LLM не справляется - почему? Ответ на ваших же скриншотах. LLM просто не понимает логику вашей задачи. Она пытается разобраться: может у вас какой-то процесс связанный с ростом числа бананов? Арифметическая прогрессия? Еще какая-то зависимость? При этом, по рассуждениям очевидно что как раз "временные" понятия, такие как "завтра", "вчера", "год назад" - модель прекрасно понимает и оперирует ими.

Переформулируем вашу задачу: "вчера показатель X был равен 2, завтра он будет равен 4, чему он равен сегодня?". Вы настаиваете (на примере с бананами), что ответ 2, потому, что завтра еще не наступило и X не изменилось, а информация о завтра - это просто "избыточные данные". Но это ваше понимание задачи. А можно понимать так что сегодня X = 3, потому что каждый день добавляется 1. Чем такое понимание неправильно?

LLM в данном случае не понимает, что вы от нее хотите, потому что вы закладываете свое понимание задачи, и это скрытая информация которой у модели нет. Человек по формулировке задачи может догадаться о том, что вы ожидаете увидеть в ответе, LLM - (если не брать самые продвинутые модели) - нет.

И все это легко доказать. Добавьте описание всех этих "скрытых" моментов которые вы "предполагаете". Это никак не повлияет на "понимание времени" моделью - но это просто подскажет что вы от нее хотите.

Как видите ответ верный. И это на крохотной локальной модельке gemma 4B без рассуждений и на русском языке!

Как видите даже у такой модельки которую можно на мобилке запустить - с "пониманием времени" вопросов не возникает. Продвинутые модели, конечно, тоже дадут верный ответ, даже при гораздо менее подробном описании.

Я не говорю, что у моделей вообще нет проблем с пониманием реального мира (и времени в частности). Да, это та тема в которой LLM отстают от людей, так как она хуже представлена в обучающих данных. Но, во-первых - это, вероятно, не принципиальное ограничение связанное с отсутствием каких-то специальных нейронов (у человека они отличаются функцией, а не структурой), а скорее особенность обучения; во-вторых - успех современных моделей с таких задачах как раз показывает, что это не принципиальный рубеж, а скорее просто область отставания; в-третьих - опираться на задачки "для дошкольников" в оценке современных моделей - не стоит, результат очень легко неверно интерпретировать.

Вы буквально расписываете модели алгоритм действия. Вы понимаете что речь идет про обобщение? Для улавливания этого модель должна обобщать данные и выделять нужный контекст? Вы же буквально опишите модели "формулу" по которой нужно рассчитать.

Еще раз, для наглядности Qwen последний:

Сейчас утро. Сегодня в конце дня 123000 бананов. Завтра у меня 1234545 бананов. Вчера было 4343433. Год назад я съел 343433 банана. Затем на прошлой недели купил 120 бананов. Сколько бананов у меня сегодня утром?

У модели явно нет связи со шкалой при обобщении. То что вы показываете, это называется алгоритм, где мы можем убрать слово время и заменить его на значение X1, X2... в описанном тексте.

Если вы считаете, что текст который я дал модели - это "буквально алгоритм решения", то.. пожалуй стоит начать с определения алгоритма :) Но это уже совсем не интересно.

Тратить время на убеждение кого-то кто тебя не слышит довольно глупо.

В любом случае я уже сказал все что хотел сказать, продолжение считаю бессмысленным. Удачи.

Кстати, тоже сделал интересное наблюдение. Почему-то часто встречаю в том числе на хабре, что умные, образованные люди - находят какую-то конкретную задачу, которую конкретная модель не может решить, и на этом основании строят обобщения уровня, что LLM в принципе не понимают (или даже утверждается принципиальная невозможность такого понимания моделями, построенными на существующих принципах) время, индукцию, и т.д., тут может быть какой угодно аспект. Подавляющее большинство аргументов типа таких, что другие модели справляются, что подавляющее большинство задач на понимание этого же аспекта модель успешно решает, просто не замечается.

Чаще всего доводится слышать в ответ аргумент, что задача была в обучающей выборке или же нагуглена сетью, уже и предлагал таким людям самостоятельно придумать задачи и проверить способность справляться LLM с такими уникальными задачами, но на такие замечания я также ответов не получал.

Моё ИМХО - не все люди ищут как оно в объективной реальности, а ищут именно подтверждение своих убеждений - в данном случае намеренно ищут задачи в которых LLM тупят, даже самые умнейшие из людей, похоже, этому подвержены

Полностью согласен.

Хочется назвать это "стадией отрицания", но возможно здесь есть и какой-то более глубокий эффект.

Ещё зависит от памяти о пользователе, + ответы, исходя из ранних переписок.

Подобный запрос делал. Ошибка. Когда сказал ещё раз, есть подвох: он идеально разложил всё.
Почему ошибся?

Отмазка такая:

Потому что я — модель, которая ориентируется на явные данные и прямые запросы. Автоматическое добавление сложных зависимостей и контекстов без явного указания пользователя увеличивает риск неверного понимания или слишком сложного ответа (а у меня в памяти забит приоритет на простые, короткие ответы.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости