runaway_llm Jul 18 at 17:19

Лишь один человек обошел ИИ от OpenAI на престижных соревнованиях по программированию

1 min

21K

Artificial IntelligenceMachine learning *

Comments 81

Kaelthas1 Jul 18 at 17:27

Ну что тут сказать: Славяне - сила!

sdramare Jul 18 at 18:16

Причём тут языковая группа?

Kaelthas1 Jul 18 at 18:37

Этноязыковая.

И это просто шуточное замечание.

mikeinside Jul 18 at 18:02

Если выйграл один из лучших программистов, среди 12 в мире у ИИ, я расцениваю это как победил ИИ.
Потому что можно перефразировать. ИИ обошел 11 из 12 лучших программистов в мире.
Что уж говорить об обычных прогерах.

lowkeypriority Jul 18 at 19:03

Тогда уже "ИИ обошел 11 из 12 лучших программистов в мире на соревнованиях AtCoder World Tour Finals 2025". А то кликбейт какой-то.

blik13 Jul 18 at 19:52

И даже у вас всё радужнее чем на самом деле.

ИИ обошел в разделе эвристики 11 из 12 лучших программистов, которые участвовали в этих соревнованиях. А лучшие они в мире или не лучшие это вопрос скользкий. Какие ещё были разделы и что там показал ИИ (если участвовал) тоже не очень понятно.

Но вообще результат впечатляет.

breninsul Jul 19 at 10:23

вопрос в том, действовал ли AI полностью автономно и какой промпт/тз давали

ArtyomOchkin Jul 18 at 20:11

*При учёте того, что не все программисты мира проходили отбор на данное соревнование.

MainEditor0 Jul 19 at 04:47

Ну да, только лучшие из лучших

Spaceoddity Jul 18 at 20:15

Что уж говорить об обычных прогерах.

Эмм.. А что о них говорить? Мне надо теперь код с ошибками, который мне ЧатГПТ сгенерил в проекты вставлять?

codecity Jul 18 at 21:46

Эмм.. А что о них говорить? Мне надо теперь код с ошибками, который мне ЧатГПТ сгенерил в проекты вставлять?

Там вроде у них не публичная версия - т.е. те что нам за 20 баксов доступные - не умеют решать.

Spaceoddity Jul 18 at 23:19

Ну это я держу в уме, но это тогда чит получается - можно попросту забить в модели ответы на все олимпиадные алгоритмические задачи... и все равно проиграть человеку))

mikeinside Jul 19 at 09:50

Мне тоже страшно и не приятно осознавать, что ИИ системы все больше и больше могут выполнять наши задачи. Но лучше принимать реальность такой, какая она есть. А она, к сожалению, такова, что нас, прогеров, будет требоваться все меньше и меньше. И через N лет будут нужны только 10% от текущей массы, а потом еще меньше.
Есть такая красивая идея, что в будущем программа будет представлять собой лишь большооооооооой подробный промпт. И все.

Wesha Jul 19 at 18:58

в будущем программа будет представлять собой лишь большооооооооой подробный промпт. И все.

Ну да

gonzazoid Jul 18 at 20:55

Обошел в чем, ять? Берем багтрек любого плюс минус значимого проекта (я предлагаю хромиум) скармливаем ии и просим пофиксить 1 (один) баг. Результат выкладываем в паблик. Я буду первым кто признает ИИ превосходство после такого. И про обошел 11 или 12 лучших программистов. Обошел 11 или 12 олимпиадников. В реальном коде эти товарищи теряются прям сразу. В первые 2-3 дня, я это видел своими глазами, я это видел несколько раз.

einhorn Jul 18 at 21:15

Только вот вперед CS толкают те, кто раньше был олимпиадником

ИИ плох в работе с большими кодбазами, но очень хорош с малыми (особенно хорошо писать MVP с нуля) - кто-нибудь не согласен с этим тезисом?

Spaceoddity Jul 18 at 23:21

Я не согласен. Нейросети очень плохо умеют в архитектуру - т.е. там где надо менять уровни абстракций. А вот простые алгоритмы - да, щёлкают... Ну если у тебя получится донести что именно тебе надо.

Они постоянно любой код пытаются обложить бесконечными проверками. Даже не интересуясь - имеет ли это смысл? Это, по вашему, хороший "архитектурный подход"? Когда они с нуля начинают прогнозировать "если приложение разрастётся до размеров ОС"...

Грубо говоря, у них очень сильная склонность "плодить сущности без нужды" - а это как раз хреновая "архитектурная практика" ;)

einhorn Jul 18 at 23:33

Это да, оверинжениринг - это вполне в стиле нейросетей

Я всегда добавляю "сделай как можно проще", и это помогает

gonzazoid Jul 19 at 04:57

Только вот вперед CS толкают те, кто раньше был олимпиадником

Можно примеры? Просто из того что я вижу это либо математики либо оголтелые практики (как например Дейкстра) . Программистов олимпиадников со вкладом в cs я пока не видел.

einhorn Jul 19 at 05:37

Я имею в виду топовый талант из рисерч-лаб типа Deep Mind

sloww Jul 19 at 09:32

Ну вот товарищ активно уже агентами колдует через CC закрывая мр с ревью через них

https://every.to/source-code/how-i-use-claude-code-to-ship-like-a-team-of-five

Все ваши задачи прям.

Можно долго упираться и засовывать как страус голову в песок с мыслями "если я это не вижу, то этого не существует", а можно начинать пользоваться инструментами и получать от этого выгоду.

gonzazoid Jul 19 at 10:37

Можно долго упираться и засовывать как страус голову в песок с мыслями "если я это не вижу, то этого не существует", а можно начинать пользоваться инструментами и получать от этого выгоду.

Вы либо сильно торопитесь с выводами обо мне либо спорите не со мной а со своим воображением. Вот моя позиция по вопросу https://habr.com/ru/news/908484/comments/#comment_28455902 я согласен что мы придем к такому, я не согласен с текущими оценками того что мы имеем сейчас.

По Вашей ссылке я не вижу ни самого ишью которое было пофиксено, ни кода фикса ни метрик кодовой базы, там вообще непонятно о чем речь. Выглядит да, как то о чем я говорю, можно ли это проверить и как?

sloww Jul 19 at 15:23

Купите CC подписку, поставьте себе claudia code https://github.com/getAsterisk/claudia и попробуйте. Я лайтовые МР уже пол года как генерю через CC, не отрицаю что необходим жесткий код ревью после, но он всегда необходим.

И да, чем больше проект, тем хуже это работает, все таки контекстное окно ограничено, поэтому тот же Chromium малорелеватный пример, а вне контекста все нейронки начинают тупить и галлюционировать.

А вот локальный pet project который пилится по выходным - идеальный пример. Спокойно наварачиваю функционал + тесты + багофиксы, благо там структура из 10 файлов всего и все в контексте нейронки.

gonzazoid Jul 19 at 16:13

Купите CC подписку, поставьте себе claudia code https://github.com/getAsterisk/claudia и попробуйте. Я лайтовые МР уже пол года как генерю через CC, не отрицаю что необходим жесткий код ревью после, но он всегда необходим.

Спасибо, но нет. Я попросил привести пример а не продавать мне продукт.

pyJIoH Jul 19 at 17:00

Если правильно понял точку зрения @sloww то речь и идет про модели, то что нельзя было делать полгода назад с выходом новых СС, Claude 4 / Kimi K2 и так далее становится можно. Это инструменты с большой скоростью изменений, которые надо постоянно тестировать.

Конечно еще есть проблемы работы с большой код базой и декомпозицией сложных задач. Но я с плагином Kilo Code, переключаясь между архитектурным, код и QA агентами, в целом уже вышел на то что больше генерирую код чем пишу сам. Причем это не отменяет понимание кода и вычитку.

gonzazoid Jul 19 at 17:22

Да я не спорю с этим. Нормальная технология, очень бодро развивается. Но началось то обсуждение не с этого а с утверждения что эта технология обошла человека уже. Я привел юзкейс в котором можно было бы это превосходство продемонстрировать а закончилось тем что вот тебе продукт, покупай и убедись в этом сам.

Wesha Jul 19 at 19:01

А вот локальный pet project который пилится по выходным - идеальный пример

Ну так и запишем: все локальные pet project будет делать Claude, осталась самая мелочь — серьёзные баноквские проекты на 100500 строк.

MaksimMukharev Jul 19 at 21:20

Их можно собирать помодульно, как минимум.

Wesha Jul 20 at 06:31

А потом выясняется, что они не стыкуются.

sloww Jul 20 at 08:24

Серьезный банковский проект я собираю в рабочее время :)

И тоже в тч с помощью нейронок (но без такой автоматизации, как свои проекты, ибо естественно все в интранете на локальных gitlab и тп, да и политика безопастности не позволяет).

opusmode Jul 18 at 21:01

Такое.

Когда-то комп обыграл Каспарова и согласно теории игр должнн был бы иметь идеальные комбинации всегда.

Тем временем недавно Магнус разнёс гпт в хлам

einhorn Jul 18 at 21:19

GPT не создавалась для игры в шахматы. Никто про это даже и не думал - использовать языковую модель для шахмат. То, что она любителя может обыграть - это уже огромное достижение

GPT создавалась, чтобы решать языковые задачи

vaslobas Jul 19 at 03:27

Комп и имеет идеальные комбинации всегда. И человек его не обыгрывает никогда. И все это было задолго до ИИ.

Именно за счет идеальных ходов и вычисляют читеров, которые играют не сами, а с помощью компьютера. Человек не ходит идеально всегда, а комп ходит. Даже среди гроссмейстеров https://ru.m.wikipedia.org/wiki/Конфликт_Карлсена_—_Ниманна

Tim_86 Jul 19 at 05:12

Что касается шахмат, люди уже лет 20 не могут соперничать с шахматными программами, такими так Stockfish и другими, более слабыми. Даже Магнус Карлсен. Stockfish не даст лучшим из шахматистов выиграть ни одной партии, максимум несколько свести вничью.

blik13 Jul 19 at 05:30

Так даже древнейшие шахматные боты разнесли гпт в хлам. Речь про консоль atari из семидесятых годов.

pyJIoH Jul 19 at 16:42

Магнус недавно в интервью рассказывал как телефон его разносит "в хлам" всегда

Spaceoddity Jul 19 at 23:32

У Магнуса ЭЛО в районе 2800 (давно не слежу уже), у Стокфиша лет 5 назад был в районе 3200-3300... О чём мы вообще?))

UFO landed and left these words here

wowka999 Jul 18 at 20:17

https://atcoder.jp/contests/awtf2025heuristic/tasks/awtf2025heuristic_a

Мало того, что там хитрая задача, там и система оценивания хитрая. Если я правильно понял, там тесты генерируются случайным образом (возможно не все, но большинство) и алгоритм генерации описан в условии. Скор теста показывает насколько близок результат выполнения программы к тому, чего надо было достичь по условию (при этом в подсчете скора участвует еще и лучший скор на тесте). Так вот, примечательный факт - у ai модели самое большое стандартное отклонение по скорам.

В общем, остается только восхититься результатом модели, хотя и кажется, что мог быть какой-то простор для «жульничества».

P.S. Минутка теорий заговора: OpenAI - спонсор соревнования

gonzazoid Jul 18 at 21:00

Минутка теорий заговора: OpenAI - спонсор соревнования

С учетом остервенения с которым нагоняется хайп вокруг OpеnAI это уже не паранойя а обычная здоровая подозрительность

tkutru Jul 18 at 19:21

Лишь один человек обошел приложение -энциклопедию на престижных энциклопедических соревнованиях.

einhorn Jul 18 at 21:22

Так можно было бы сказать, если бы они играли в Jeopardy

По-вашему, олимпиадное программирование - это только заучивание? Или вы обвиняете разработчиков в контаминации данных?

RAtioNAn Jul 18 at 21:38

По-вашему, олимпиадное программирование - это только заучивание

Имхо это олимпиадное программирование вообще какой то бред. Почему нет олимпиадного лечения там или проектировки здания или вот олимпиадное проектирование двигателя самолета!

tkutru Jul 18 at 22:30

В основном заучивание и "насобачивание". Там где требуется исследование, креативность и здравый смысл это ваше ИИ начинает хромать на обе ноги. В неважных задачах это может и некритично, а в важных смерти подобно.
Сегодня спросил у нескольких моделей (>40B параметров), сколько готовить нарезанное мясо в духовке на 150 градусах. Мне отвечали в диапазоне от двух до шести часов. В действительности оно готовится не более 40 минут. Тут модели не просто не превосходят "11 из 12 лучших поваров на планете", но едва ли выдержат конкуренцию с ребёнком, имеющим опыт готовки. И так периодически во всём.

SHTrassEr Jul 19 at 02:02

Задал вопрос deepseek: "сколько готовить нарезанное мясо в духовке на 150 градусах?". Он ответил, что время зависит от размера кусочков и желаемой степени прожарки. В качестве основных ориентиров выдал время как раз менее 40 минут.

BlackMokona Jul 19 at 03:48

Вы спросили модель с размером мозга с червячка. ГПТшки сейчас за 1000Б+ размером. Обвешаны инструментами, поисковиками, всякими добавками вроде размышлений...

einhorn Jul 19 at 05:49

А какая активность для вас тогда может служить истинным мерилом интеллекта?

Что для вас реально выявляет "исследование, креативность и здравый смысл"?

tkutru Jul 19 at 10:41

Немалое количество блестящих учёных сделали серьезные открытия, опираясь на уже имеющиеся научные данные (часто - полученные не ими самими). Коперник, Кеплер, Менделеев, Эйнштейн, это так, навскидку. То есть буквально сидя за столом с бумагой и ручкой и проводя мысленные эксперименты.

Какие аналогичные открытия сделал этот ваш страшный ИИ, который типа превосходит людей? И которому доступны буквально все знания мира и неограниченный (по сравнению с возможностями отдельного человека) объем памяти и производительности?

Подчёркиваю, речь идёт именно об общем интеллекте, а не специализированных инструментах типа более крутого big data калькулятора или ML модели, эффективно предсказывающей паттерны в конкретной задаче, типа свертывания белков (и умеющей делать только это и ничего больше).

einhorn Jul 19 at 11:04

неограниченный (по сравнению с возможностями отдельного человека) объем памяти и производительности?

у человека в мозгу порядка сотни триллионов нейронных связей, у самых больших LLM - порядка одного триллиона параметров

типа свертывания белков
Коперник, Кеплер, Менделеев, Эйнштейн

так эти господа тоже в большинстве своем трудились в одной конкретной области

если мы соединим AlphaFold и GPT, то у нас получится теоретический конструкт, который вы просите - обладает общим интеллектом, умеет решать одну конкретную сложную задачу. И количество нейронных связей все равно будет на пару порядков меньше, чем у человека

tkutru Jul 19 at 12:31

у человека в мозгу порядка сотни триллионов нейронных связей, у самых больших LLM - порядка одного триллиона параметров

"Нейронная свзяь" не равно параметру модели, и вообще устройство физического мозга гораздо сложнее (и до конца не изучено). Странно так сравнивать.

Типа, лошадь бегает быстро. Она бежит на четырёх ногах.
Гепард бегает очень быстро. Тоже на четырёх ногах.
Вывод: чтобы нам передвигаться быстрее, надо увеличить количество конечностей, на которых опираемся при беге. Будем бегать на четвереньках!

К тому же давно известно, что после определённого предела наращивать количество параметров для улучшения качества ответов практически бесполезно. Неверно думать, что модель на офигилиард параметров станет сильно умнее. Зависимость там не линейная, а скорее логарифмическая.

если мы соединим AlphaFold и GPT,

Анекдот:

Курилка в военной части. Лейтенанты просяться в отпуск.

Первый заходит к полковнику:
— Разрешите в отпуск!
— Дашь рацпредложение — пойдёшь.
— Легко! У вас солдат косит траву в одну сторону — привежите к нему вторую косу, пусть машет в обе стороны!
— Молодец! В отпуск!

Второй:
— Пусть к косе вилы привяжет — сразу в кучки складывает!
— Молодец! В отпуск!

Третий:
— Привяжите тележку — пусть траву сразу и отвозит!
— Молодец! В отпуск!

Четвёртый не может придумать. Выходит, курит. Подходит измученный солдат с тележкой, вилами и двумя косами:
— Чё, в отпуск хотите?
— Да…
— Рацпредложение не можете?
— Нет…
— ФАРУ, ФАРУ МНЕ Б...ТЬ НА ЛОБ, ЧТОБ НОЧЬЮ КОСИЛ!

Wesha Jul 19 at 01:11

Без Онотоле — несчитово!

codecity Jul 18 at 19:55

Опа, уже прямо как с шахматами. Однако...

blik13 Jul 18 at 20:19

С играми сравнение не очень корректное. Суть участия в играх это выиграть, всегда выиграть. У шахмат весь смысл что кто то победил. И потому среди шахматистов можно реально выделить лучших в мире. А среди программистов немного другая история.

codecity Jul 18 at 21:49

А среди программистов немного другая история.

Ну да, есть спортивное программирование - а есть, скажем так, корпоративное/бытовое. И как водится - спортивное сложнее для людей, но проще для машин. А бытовое вроде фигня - но для машин недостижимо.

MainEditor0 Jul 19 at 05:03

Да вроде вполне справляются всяко лучше, чем лет 5 назад или даже 3 года назад, за это время машины показали взрывной рост производительности и не думают останавливаться

Octonion Jul 23 at 10:02

Ну вообще-то очень даже думают. Обучение моделей требует всё больше времени, энергии, данных и вычислительных мощностей. Ядерные реакторы для дата-центров, города серверных с видеокартами от Нвидии и аугментация данных наше всё, конечно же, но такой подход даёт бонус к скорости лишь на время.
Для сравнения: насколько быстро появлялись GPT-1-2-3 и уже медленнее 4 и сколько не может родиться GPT-5.
Не говоря о том, что закон Мура стоит одной ногой в могиле

blik13 Jul 19 at 05:08

Тут наверное ближе будет сравнение с водителями. Есть гонщики(возьмём кольцевые гонки). У них четкие регламенты, идеально подготовленное авто, команда обслуги и т.д. А есть дальнобойщик Михалыч, которому из Владивостока нужно доставить 30 тонн скоропортящегося груза куда-нибудь в Париж, при этом не сломаться, не убиться, не застрять с полицией или таможней, не опоздать, не нарушить режим работы. Конечно и такая аналогия далека от реальности, но она будет ближе чем шахматы.

Spaceoddity Jul 18 at 20:14

А меня что-то OpenAi не впечатляет уж... Как будто деградация какая-то началась.
Не знаю в чём там проблема, но почти в каждом ответе я нахожу ошибку... В целом да, в программировании он чувствует себя значительно лучше, чем в других естественно-научных дисциплинах (про гуманитарные я вообще молчу). Но только потому (специально спрашивал) - что в модели чуть ли не весь гитхаб загрузили. Соответственно - чего нет в публичных репозиториях, того и сгенерить не сможем...

Newcss Jul 18 at 20:56

А у гитхаба не только публичные репы, но и закрытые есть. И ни кто правды всей не скажет был ли предоставлен доступ к ним или нет.

10011001010010010 Jul 18 at 21:36

почти в каждом ответе я нахожу ошибку

когда я пишу код я тоже почти в каждом блоке (своего кода) нахожу ошибку

Spaceoddity Jul 18 at 23:27

А я нет. Уж тем более если мы про ошибки, которые делают невозможной компиляцию/интерпретацию, а не code style...

10011001010010010 Jul 19 at 09:36

такие ошибки находит IDE :-)

sloww Jul 19 at 09:34

Пора менять GPT2 на 4o хотя бы.

akaleks Jul 18 at 21:08

А какого размера был дата центр на котором был развернут этот ИИ?

codecity Jul 18 at 21:49

А какого размера был дата центр на котором был развернут этот ИИ?

Вроде это не те же самые агенты, которые доступные публично за $20.

gaal_dev Jul 19 at 13:47

несколько футбольных полей🤖 супротив одного человека🤨

ValeriyPus Jul 19 at 02:23

Еще 3-5 лет назад писал, что вы уже никогда не одолеете DreamCoder или любой другой SMT Solver.

А транслировать lisp в C# умеет любой "ИИ".

А уж извлекать данные из NL и подавно.

HNKHENM Jul 19 at 04:52

Вдруг подумалось:

олимпиадники
====== вы находитесь здесь ======
работяги

Когда прикрутят к гитхабу и пофиксят все баги?

codecity Jul 19 at 05:37

Когда прикрутят к гитхабу и пофиксят все баги?

Сейчас же еще и цена имеет значение. Эти агенты стоят дорого, вроде приводили тысячи долларов за решение одной задачи.

arantar Jul 19 at 09:03

Почему то в этой цепочке, когда говорят про замену человека ИИ, пропускают шаг постановки задачи и контроля результата. Кто этим будет заниматься, SEO что ли? Или те же работяги, просто в меньшем кол-ве из-за более высокой производительности?

sloww Jul 19 at 09:35

Уже? Claude Code из коробки или Claudia Code как GUI для CC. Да даже Codex от ChatGPT уже умеет в репо лезть, править баги и делать пулл реквесты (правда сильно хуже CC имхо).

HNKHENM Jul 19 at 13:41

Все никак не потыкаю, а недавно и вообще чатгпт плюс отвалился так как зарубежная карта "cдохла". Из рф трудновато поспевать за будущим

Ни в коем случае не отрицаю полезность нейронок, но и прогресс их пугает))

limejuice Jul 19 at 06:01

Скажу по секрету олимпиадники не всегда хорошо адаптируются к промышленному программированию после окончания вузов. Решить задачку это не систему спроектировать.

JVyacheslav Jul 19 at 06:48

Ну, поздравим этот ОпенАИ. С алгоритмами она всегда справлялась вроде, дай ей только правильное описание задачи. С большими проектами она работать нормально не умеет. Олимпиадники, конечно, тренируются, но они все решения в голову засунуть не могут чисто физически, им требуется время на раздумья, перебор вариантов, банально на набор текста. А у этой мало того, что шаблонных решений загружено в разы больше, так ещё и вычислительная мощность овердофига. Это почти то же самое, что сравнивать калькулятор с человеком на соревнованиях по быстрому устному счёту.

gaal_dev Jul 19 at 13:53

примерно о том же думал - готовых решений с github и других ресурсов в базе этой штуки тьма, но по затратам энергии живые существа выигрывают у электроников - беда, если создадут органоиды

компьютер давно выиграл у человека в шахматы и го механически перебирая варианты ходов - ну и что🤷‍♂️

1755 Jul 19 at 09:53

Если там одимпиадное программирование, то не удивительно, так как в этом его и суть - заучить кучу паттернов и классов известных задач и как можно быстро их применить под что и заканчивается машинное обучение

IAmNotMe Jul 19 at 11:34

Если занявший второе место ИИ - это лишь ассистент, то наверное продолжая логику занявшие 3 и ниже места - ассистенты ИИ и далее по цепочке?

Michroz Jul 21 at 05:28

Журналисты ещё долго будут попадаться на удочку ОПРЕДЕЛЕНИЙ и кормить нас ложными сенсациями. В данном случае вся загвоздка в определении что такое "программирование". Если это написание кода по чётко сформулированным входным и выходным данным, то человеку тут скоро почти нечего будет делать в сравнении с программой. А если это решение задачи вместе с её постановкой, отладкой, идеей, поддержкой и другими сопутствующими задачами, то наоборот. Любое соревнование здесь напоминает соревнование бухгалтера с калькулятором или тяжелоатлета с краном.

Wesha Jul 21 at 15:19

по чётко сформулированным входным и выходным данным

Ну да, ну да

supremum76 Jul 21 at 10:50

🤖Победителей определял ИИ ? 🦧

Wesha Jul 21 at 15:22

Ну да, «в чемпионате Чечни по бегу победил Адам Кадыров».