Комментарии 81
Ну что тут сказать: Славяне - сила!
Если выйграл один из лучших программистов, среди 12 в мире у ИИ, я расцениваю это как победил ИИ.
Потому что можно перефразировать. ИИ обошел 11 из 12 лучших программистов в мире.
Что уж говорить об обычных прогерах.
Тогда уже "ИИ обошел 11 из 12 лучших программистов в мире на соревнованиях AtCoder World Tour Finals 2025". А то кликбейт какой-то.
И даже у вас всё радужнее чем на самом деле.
ИИ обошел в разделе эвристики 11 из 12 лучших программистов, которые участвовали в этих соревнованиях. А лучшие они в мире или не лучшие это вопрос скользкий. Какие ещё были разделы и что там показал ИИ (если участвовал) тоже не очень понятно.
Но вообще результат впечатляет.
*При учёте того, что не все программисты мира проходили отбор на данное соревнование.
Что уж говорить об обычных прогерах.
Эмм.. А что о них говорить? Мне надо теперь код с ошибками, который мне ЧатГПТ сгенерил в проекты вставлять?
Эмм.. А что о них говорить? Мне надо теперь код с ошибками, который мне ЧатГПТ сгенерил в проекты вставлять?
Там вроде у них не публичная версия - т.е. те что нам за 20 баксов доступные - не умеют решать.
Мне тоже страшно и не приятно осознавать, что ИИ системы все больше и больше могут выполнять наши задачи. Но лучше принимать реальность такой, какая она есть. А она, к сожалению, такова, что нас, прогеров, будет требоваться все меньше и меньше. И через N лет будут нужны только 10% от текущей массы, а потом еще меньше.
Есть такая красивая идея, что в будущем программа будет представлять собой лишь большооооооооой подробный промпт. И все.
Обошел в чем, ять? Берем багтрек любого плюс минус значимого проекта (я предлагаю хромиум) скармливаем ии и просим пофиксить 1 (один) баг. Результат выкладываем в паблик. Я буду первым кто признает ИИ превосходство после такого. И про обошел 11 или 12 лучших программистов. Обошел 11 или 12 олимпиадников. В реальном коде эти товарищи теряются прям сразу. В первые 2-3 дня, я это видел своими глазами, я это видел несколько раз.
Только вот вперед CS толкают те, кто раньше был олимпиадником
ИИ плох в работе с большими кодбазами, но очень хорош с малыми (особенно хорошо писать MVP с нуля) - кто-нибудь не согласен с этим тезисом?
Я не согласен. Нейросети очень плохо умеют в архитектуру - т.е. там где надо менять уровни абстракций. А вот простые алгоритмы - да, щёлкают... Ну если у тебя получится донести что именно тебе надо.
Они постоянно любой код пытаются обложить бесконечными проверками. Даже не интересуясь - имеет ли это смысл? Это, по вашему, хороший "архитектурный подход"? Когда они с нуля начинают прогнозировать "если приложение разрастётся до размеров ОС"...
Грубо говоря, у них очень сильная склонность "плодить сущности без нужды" - а это как раз хреновая "архитектурная практика" ;)
Только вот вперед CS толкают те, кто раньше был олимпиадником
Можно примеры? Просто из того что я вижу это либо математики либо оголтелые практики (как например Дейкстра) . Программистов олимпиадников со вкладом в cs я пока не видел.
Ну вот товарищ активно уже агентами колдует через CC закрывая мр с ревью через них
https://every.to/source-code/how-i-use-claude-code-to-ship-like-a-team-of-five
Все ваши задачи прям.
Можно долго упираться и засовывать как страус голову в песок с мыслями "если я это не вижу, то этого не существует", а можно начинать пользоваться инструментами и получать от этого выгоду.
Можно долго упираться и засовывать как страус голову в песок с мыслями "если я это не вижу, то этого не существует", а можно начинать пользоваться инструментами и получать от этого выгоду.
Вы либо сильно торопитесь с выводами обо мне либо спорите не со мной а со своим воображением. Вот моя позиция по вопросу https://habr.com/ru/news/908484/comments/#comment_28455902 я согласен что мы придем к такому, я не согласен с текущими оценками того что мы имеем сейчас.
По Вашей ссылке я не вижу ни самого ишью которое было пофиксено, ни кода фикса ни метрик кодовой базы, там вообще непонятно о чем речь. Выглядит да, как то о чем я говорю, можно ли это проверить и как?
Купите CC подписку, поставьте себе claudia code https://github.com/getAsterisk/claudia и попробуйте. Я лайтовые МР уже пол года как генерю через CC, не отрицаю что необходим жесткий код ревью после, но он всегда необходим.
И да, чем больше проект, тем хуже это работает, все таки контекстное окно ограничено, поэтому тот же Chromium малорелеватный пример, а вне контекста все нейронки начинают тупить и галлюционировать.
А вот локальный pet project который пилится по выходным - идеальный пример. Спокойно наварачиваю функционал + тесты + багофиксы, благо там структура из 10 файлов всего и все в контексте нейронки.
Купите CC подписку, поставьте себе claudia code https://github.com/getAsterisk/claudia и попробуйте. Я лайтовые МР уже пол года как генерю через CC, не отрицаю что необходим жесткий код ревью после, но он всегда необходим.
Спасибо, но нет. Я попросил привести пример а не продавать мне продукт.
Если правильно понял точку зрения @sloww то речь и идет про модели, то что нельзя было делать полгода назад с выходом новых СС, Claude 4 / Kimi K2 и так далее становится можно. Это инструменты с большой скоростью изменений, которые надо постоянно тестировать.
Конечно еще есть проблемы работы с большой код базой и декомпозицией сложных задач. Но я с плагином Kilo Code, переключаясь между архитектурным, код и QA агентами, в целом уже вышел на то что больше генерирую код чем пишу сам. Причем это не отменяет понимание кода и вычитку.
Да я не спорю с этим. Нормальная технология, очень бодро развивается. Но началось то обсуждение не с этого а с утверждения что эта технология обошла человека уже. Я привел юзкейс в котором можно было бы это превосходство продемонстрировать а закончилось тем что вот тебе продукт, покупай и убедись в этом сам.
А вот локальный pet project который пилится по выходным - идеальный пример
Ну так и запишем: все локальные pet project будет делать Claude, осталась самая мелочь — серьёзные баноквские проекты на 100500 строк.
Их можно собирать помодульно, как минимум.
Серьезный банковский проект я собираю в рабочее время :)
И тоже в тч с помощью нейронок (но без такой автоматизации, как свои проекты, ибо естественно все в интранете на локальных gitlab и тп, да и политика безопастности не позволяет).
Такое.
Когда-то комп обыграл Каспарова и согласно теории игр должнн был бы иметь идеальные комбинации всегда.
Тем временем недавно Магнус разнёс гпт в хлам
GPT не создавалась для игры в шахматы. Никто про это даже и не думал - использовать языковую модель для шахмат. То, что она любителя может обыграть - это уже огромное достижение
GPT создавалась, чтобы решать языковые задачи
Комп и имеет идеальные комбинации всегда. И человек его не обыгрывает никогда. И все это было задолго до ИИ.
Именно за счет идеальных ходов и вычисляют читеров, которые играют не сами, а с помощью компьютера. Человек не ходит идеально всегда, а комп ходит. Даже среди гроссмейстеров https://ru.m.wikipedia.org/wiki/Конфликт_Карлсена_—_Ниманна
Что касается шахмат, люди уже лет 20 не могут соперничать с шахматными программами, такими так Stockfish и другими, более слабыми. Даже Магнус Карлсен. Stockfish не даст лучшим из шахматистов выиграть ни одной партии, максимум несколько свести вничью.
Так даже древнейшие шахматные боты разнесли гпт в хлам. Речь про консоль atari из семидесятых годов.
Магнус недавно в интервью рассказывал как телефон его разносит "в хлам" всегда
https://atcoder.jp/contests/awtf2025heuristic/tasks/awtf2025heuristic_a
Мало того, что там хитрая задача, там и система оценивания хитрая. Если я правильно понял, там тесты генерируются случайным образом (возможно не все, но большинство) и алгоритм генерации описан в условии. Скор теста показывает насколько близок результат выполнения программы к тому, чего надо было достичь по условию (при этом в подсчете скора участвует еще и лучший скор на тесте). Так вот, примечательный факт - у ai модели самое большое стандартное отклонение по скорам.
В общем, остается только восхититься результатом модели, хотя и кажется, что мог быть какой-то простор для «жульничества».
P.S. Минутка теорий заговора: OpenAI - спонсор соревнования
Лишь один человек обошел приложение -энциклопедию на престижных энциклопедических соревнованиях.
Так можно было бы сказать, если бы они играли в Jeopardy
По-вашему, олимпиадное программирование - это только заучивание? Или вы обвиняете разработчиков в контаминации данных?
По-вашему, олимпиадное программирование - это только заучивание
Имхо это олимпиадное программирование вообще какой то бред. Почему нет олимпиадного лечения там или проектировки здания или вот олимпиадное проектирование двигателя самолета!
В основном заучивание и "насобачивание". Там где требуется исследование, креативность и здравый смысл это ваше ИИ начинает хромать на обе ноги. В неважных задачах это может и некритично, а в важных смерти подобно.
Сегодня спросил у нескольких моделей (>40B параметров), сколько готовить нарезанное мясо в духовке на 150 градусах. Мне отвечали в диапазоне от двух до шести часов. В действительности оно готовится не более 40 минут. Тут модели не просто не превосходят "11 из 12 лучших поваров на планете", но едва ли выдержат конкуренцию с ребёнком, имеющим опыт готовки. И так периодически во всём.
Задал вопрос deepseek: "сколько готовить нарезанное мясо в духовке на 150 градусах?". Он ответил, что время зависит от размера кусочков и желаемой степени прожарки. В качестве основных ориентиров выдал время как раз менее 40 минут.
Вы спросили модель с размером мозга с червячка. ГПТшки сейчас за 1000Б+ размером. Обвешаны инструментами, поисковиками, всякими добавками вроде размышлений...
А какая активность для вас тогда может служить истинным мерилом интеллекта?
Что для вас реально выявляет "исследование, креативность и здравый смысл"?
Немалое количество блестящих учёных сделали серьезные открытия, опираясь на уже имеющиеся научные данные (часто - полученные не ими самими). Коперник, Кеплер, Менделеев, Эйнштейн, это так, навскидку. То есть буквально сидя за столом с бумагой и ручкой и проводя мысленные эксперименты.
Какие аналогичные открытия сделал этот ваш страшный ИИ, который типа превосходит людей? И которому доступны буквально все знания мира и неограниченный (по сравнению с возможностями отдельного человека) объем памяти и производительности?
Подчёркиваю, речь идёт именно об общем интеллекте, а не специализированных инструментах типа более крутого big data калькулятора или ML модели, эффективно предсказывающей паттерны в конкретной задаче, типа свертывания белков (и умеющей делать только это и ничего больше).
неограниченный (по сравнению с возможностями отдельного человека) объем памяти и производительности?
у человека в мозгу порядка сотни триллионов нейронных связей, у самых больших LLM - порядка одного триллиона параметров
типа свертывания белков
Коперник, Кеплер, Менделеев, Эйнштейн
так эти господа тоже в большинстве своем трудились в одной конкретной области
если мы соединим AlphaFold и GPT, то у нас получится теоретический конструкт, который вы просите - обладает общим интеллектом, умеет решать одну конкретную сложную задачу. И количество нейронных связей все равно будет на пару порядков меньше, чем у человека
у человека в мозгу порядка сотни триллионов нейронных связей, у самых больших LLM - порядка одного триллиона параметров
"Нейронная свзяь" не равно параметру модели, и вообще устройство физического мозга гораздо сложнее (и до конца не изучено). Странно так сравнивать.
Типа, лошадь бегает быстро. Она бежит на четырёх ногах.
Гепард бегает очень быстро. Тоже на четырёх ногах.
Вывод: чтобы нам передвигаться быстрее, надо увеличить количество конечностей, на которых опираемся при беге. Будем бегать на четвереньках!
К тому же давно известно, что после определённого предела наращивать количество параметров для улучшения качества ответов практически бесполезно. Неверно думать, что модель на офигилиард параметров станет сильно умнее. Зависимость там не линейная, а скорее логарифмическая.
если мы соединим AlphaFold и GPT,
Анекдот:
Курилка в военной части. Лейтенанты просяться в отпуск.
Первый заходит к полковнику:
— Разрешите в отпуск!
— Дашь рацпредложение — пойдёшь.
— Легко! У вас солдат косит траву в одну сторону — привежите к нему вторую косу, пусть машет в обе стороны!
— Молодец! В отпуск!
Второй:
— Пусть к косе вилы привяжет — сразу в кучки складывает!
— Молодец! В отпуск!
Третий:
— Привяжите тележку — пусть траву сразу и отвозит!
— Молодец! В отпуск!
Четвёртый не может придумать. Выходит, курит. Подходит измученный солдат с тележкой, вилами и двумя косами:
— Чё, в отпуск хотите?
— Да…
— Рацпредложение не можете?
— Нет…
— ФАРУ, ФАРУ МНЕ Б...ТЬ НА ЛОБ, ЧТОБ НОЧЬЮ КОСИЛ!
Без Онотоле — несчитово!
Опа, уже прямо как с шахматами. Однако...
С играми сравнение не очень корректное. Суть участия в играх это выиграть, всегда выиграть. У шахмат весь смысл что кто то победил. И потому среди шахматистов можно реально выделить лучших в мире. А среди программистов немного другая история.
А среди программистов немного другая история.
Ну да, есть спортивное программирование - а есть, скажем так, корпоративное/бытовое. И как водится - спортивное сложнее для людей, но проще для машин. А бытовое вроде фигня - но для машин недостижимо.
Да вроде вполне справляются всяко лучше, чем лет 5 назад или даже 3 года назад, за это время машины показали взрывной рост производительности и не думают останавливаться
Ну вообще-то очень даже думают. Обучение моделей требует всё больше времени, энергии, данных и вычислительных мощностей. Ядерные реакторы для дата-центров, города серверных с видеокартами от Нвидии и аугментация данных наше всё, конечно же, но такой подход даёт бонус к скорости лишь на время.
Для сравнения: насколько быстро появлялись GPT-1-2-3 и уже медленнее 4 и сколько не может родиться GPT-5.
Не говоря о том, что закон Мура стоит одной ногой в могиле
Тут наверное ближе будет сравнение с водителями. Есть гонщики(возьмём кольцевые гонки). У них четкие регламенты, идеально подготовленное авто, команда обслуги и т.д. А есть дальнобойщик Михалыч, которому из Владивостока нужно доставить 30 тонн скоропортящегося груза куда-нибудь в Париж, при этом не сломаться, не убиться, не застрять с полицией или таможней, не опоздать, не нарушить режим работы. Конечно и такая аналогия далека от реальности, но она будет ближе чем шахматы.
А меня что-то OpenAi не впечатляет уж... Как будто деградация какая-то началась.
Не знаю в чём там проблема, но почти в каждом ответе я нахожу ошибку... В целом да, в программировании он чувствует себя значительно лучше, чем в других естественно-научных дисциплинах (про гуманитарные я вообще молчу). Но только потому (специально спрашивал) - что в модели чуть ли не весь гитхаб загрузили. Соответственно - чего нет в публичных репозиториях, того и сгенерить не сможем...
А у гитхаба не только публичные репы, но и закрытые есть. И ни кто правды всей не скажет был ли предоставлен доступ к ним или нет.
почти в каждом ответе я нахожу ошибку
когда я пишу код я тоже почти в каждом блоке (своего кода) нахожу ошибку
Пора менять GPT2 на 4o хотя бы.
А какого размера был дата центр на котором был развернут этот ИИ?
Еще 3-5 лет назад писал, что вы уже никогда не одолеете DreamCoder или любой другой SMT Solver.
А транслировать lisp в C# умеет любой "ИИ".
А уж извлекать данные из NL и подавно.
Вдруг подумалось:
олимпиадники
====== вы находитесь здесь ======
работяги
Когда прикрутят к гитхабу и пофиксят все баги?
Когда прикрутят к гитхабу и пофиксят все баги?
Сейчас же еще и цена имеет значение. Эти агенты стоят дорого, вроде приводили тысячи долларов за решение одной задачи.
Почему то в этой цепочке, когда говорят про замену человека ИИ, пропускают шаг постановки задачи и контроля результата. Кто этим будет заниматься, SEO что ли? Или те же работяги, просто в меньшем кол-ве из-за более высокой производительности?
Уже? Claude Code из коробки или Claudia Code как GUI для CC. Да даже Codex от ChatGPT уже умеет в репо лезть, править баги и делать пулл реквесты (правда сильно хуже CC имхо).
Скажу по секрету олимпиадники не всегда хорошо адаптируются к промышленному программированию после окончания вузов. Решить задачку это не систему спроектировать.
Ну, поздравим этот ОпенАИ. С алгоритмами она всегда справлялась вроде, дай ей только правильное описание задачи. С большими проектами она работать нормально не умеет. Олимпиадники, конечно, тренируются, но они все решения в голову засунуть не могут чисто физически, им требуется время на раздумья, перебор вариантов, банально на набор текста. А у этой мало того, что шаблонных решений загружено в разы больше, так ещё и вычислительная мощность овердофига. Это почти то же самое, что сравнивать калькулятор с человеком на соревнованиях по быстрому устному счёту.
Если там одимпиадное программирование, то не удивительно, так как в этом его и суть - заучить кучу паттернов и классов известных задач и как можно быстро их применить под что и заканчивается машинное обучение
Если занявший второе место ИИ - это лишь ассистент, то наверное продолжая логику занявшие 3 и ниже места - ассистенты ИИ и далее по цепочке?
Журналисты ещё долго будут попадаться на удочку ОПРЕДЕЛЕНИЙ и кормить нас ложными сенсациями. В данном случае вся загвоздка в определении что такое "программирование". Если это написание кода по чётко сформулированным входным и выходным данным, то человеку тут скоро почти нечего будет делать в сравнении с программой. А если это решение задачи вместе с её постановкой, отладкой, идеей, поддержкой и другими сопутствующими задачами, то наоборот. Любое соревнование здесь напоминает соревнование бухгалтера с калькулятором или тяжелоатлета с краном.
🤖Победителей определял ИИ ? 🦧
Лишь один человек обошел ИИ от OpenAI на престижных соревнованиях по программированию