runaway_llm5 янв в 20:24

ИИ впервые победил всех программистов-людей на соревновании AtCoder

2 мин

21K

Искусственный интеллектМашинное обучение *

+14

Комментарии 63

nervnomancer 5 янв в 20:44

>но пока не переломный момент

да уже переломный. Пусть в меня кинет камнем тот, кому LLM ни разу не смогло наreviewить оптимизацию. Ну типа, ты ему кидаешь SQL или NOSQL запрос, а он в ответ: "слушай, чувак, прям нечего предложить"

ermadmi78 5 янв в 21:18

Я для оптимизации код обычно не ИИ кидаю, а обкладываю со всех сторон метриками и выкатываю на нагрузочный стенд. И там уже сравниваю между собой ряд гипотез по оптимизации. Мне кажется, что этот подход более эффективен, чем ИИ галлюцинации.

Eleon 5 янв в 22:03

Вам про Фому, а вы про Ерему. ИИ это и есть (еще один) источник гипотез по оптимизации. А дальше какие-то и так очевидно полезны или вредны, а какие-то надо вот выкатывать на нагрузочный стенд и далее по вашему тексту.

ermadmi78 5 янв в 22:04

С этим согласен. Гипотез много не бывает.

Wesha 6 янв в 01:49

Гипотез много не бывает.

А как же «один дурак за пять минут может задать столько вопросов, что и сто мудрецов за сто лет не ответят»?

ermadmi78 6 янв в 07:52

Ну, если у специалиста не получается выдвинуть гипотезу, то почему бы и не погуглить или поИИшить? Другой вопрос, очень хотелось бы, чтобы специалист понимал суть найденный таким образом гипотезы, и осмысленно принимал решение о необходимости её проверки.

Wesha 6 янв в 08:54

Ну, если у специалиста не получается выдвинуть гипотезу, то

..встаёт вопрос — «а он точно специалист?»

@milkyway044: LLM не делает вас тупым. Она просто убирает иллюзию, что вы были умным.

ermadmi78 6 янв в 09:46

Ну вот я 25 лет код пишу. Последние 20 лет пишу на Java. И все эти 25 лет мне приходится непрерывно учиться. Потому что индустрия стремительно эволюционирует, и, тут как в сказке про Алису в стране чудес - нужно очень быстро бежать вперёд, чтобы просто оставаться на месте. И да, у меня все эти 25 лет регулярно возникают ситуации, когда я чего-то не знаю, и вынужден гуглить. Точно ли я специалист?

Лично я ИИ воспринимаю как следующую ступень эволюции поиска информации. Раньше информацию передавали и уст в уста. Потом появились книги. Потом интернет. Теперь вот ИИ выскочил. Просто у меня появился ещё один один инструмент для поиска информации.

PPS

Ну и лично про себя скажу, что мне ИИ пока ничем не помогает. На том уровне, на котором ИИ ответы выдаёт я и сам всё знаю. А на том уровне, на котором у меня проблемы возникают, ИИ не в состоянии работать.

PPPS

Ну а хайп с "вайб кодингом" в виде, что можно ничего не понимать и тупо писать промпты - это не более чем жёлтый пиар для выкачивания денег из инвесторов. Этот подход работает только на примитивных задачах. В серьёзной разработке нужен специалист. Ну а пользуется ли он ИИ, гуглом, книгами или устным народными творчеством - это его дело. Главное, чтобы понимал, что и зачем делает. И был готов развивать проект в долгосрочной перспективе.

Wesha 6 янв в 09:57

Ну вот я 25 лет код пишу.

Ну вот я тоже (только уже 35).

И все эти 25 лет мне приходится непрерывно учиться.

Именно. «В геометрии нет царских путей».

И да, у меня все эти 25 лет регулярно возникают ситуации, когда я чего‑то не знаю, и вынужден гуглить. Точно ли я специалист?

А что, разве у Вас возникали проблемы выдвинуть гипотезу? Вы её выдвигали — и лезли гуглить, дабы проверить, потому как раньше правильных ответов было больше — а сейчас нейрослоп отакуэ.

Лично я ИИ воспринимаю как следующую ступень эволюции поиска информации. Раньше информацию передавали и уст в уста. Потом появились книги. Потом интернет. Теперь вот ИИ выскочил. Просто у меня появился ещё один один инструмент для поиска информации.

Вот только проблемы «а в книге оно точно правильно, или аффтар ерунду какую‑то написал?» раньше не было. (Я сейчас не про всевозможные священные книги.)

Ну и лично про себя скажу, что мне ИИ пока ничем не помогает. На том уровне, на котором ИИ ответы выдаёт я и сам всё знаю. А на том уровне, на котором у меня проблемы возникают, ИИ не в состоянии работать.

О том и речь — мы с Вами из второй категории.

Все программисты в мире делятся на две категории:
— Те, кто считает, что ChatGPT кодит на порядок лучше их;
— Те, кто считает, что ChatGPT кодит на порядок хуже их.
И те, и другие абсолютно правы.

Ну а пользуется ли он ИИ, гуглом, книгами или устным народными творчеством — это его дело. Главное, чтобы понимал,

..где какая вероятность гонева.

geher 6 янв в 10:28

Вот только проблемы «а в книге оно точно правильно, или аффтар ерунду какую‑то написал?» раньше не было.

Было. Всегда. Вспоминаем про 8 ног у мухи. Что характерно, про то, что так полагал Аристотель, тоже вроде брехня. Это вроде появилось только в переводах Аристотеля, вроде даже в переаодах переводов.

(Я сейчас не про всевозможные священные книги.)

А вот священные книги как раз обычно дают исчерпывающе верное представление о каноне веры тех, для кого эти книги священные, ибо ошибки и иные разночтения либо ксрались, либо приводили к появлению нового вероисповедания.

НЛО прилетело и опубликовало эту надпись здесь

IAmNotMe 6 янв в 14:55

Вовсе не на две категории. Мы вместе с "архитектором" в Клауд код придумываем архитектору, предлагаем идеи и ищем лучшее решение. Порой косячит он, порой я. Когда он - я рад, что я это вижу и могу контролировать. Когда я - я рад, что у меня теперь коллега, что страхует. Но разумеется, чем умнее tool, тем более вероятен ее хитрый сбой

Wesha 6 янв в 15:30

Ви знаете, резиновый утёнок значительно дешевле при меньшем углеродном следе.

SwingoPingo 6 янв в 10:04

Бежать все быстрее, что бы отставать не так быстро. Где то уже на пределе возможностей человека как вида. Мы уже в стрессовой яме и стрессовом техдолге неразгребном.

Wesha 6 янв в 10:33

Мы уже в стрессовой яме

«Отучаемся говорить за всю сеть» ©

nervnomancer 6 янв в 13:01

>а он точно специалист

ну я например работаю активно с 3 разными субд (в разных проектах), mongo, elasticsearch, neo4j очевидно что я не могу быть спецом во всех трёх. они ещё и обновляются с лютой скоростью.

один ~~в каждой бочке затычка~~ wesha всё успевает. правда анонимно и без пруфов. ну ок.

Wesha 6 янв в 15:33

что я не ~~могу~~ хочу быть спецом во всех трёх

There, FTFY.

~~в каждой бочке затычка~~

«А я буду, буду трындеть!» ©

Dair_Targ 5 янв в 21:47

Как-то в компании, занимающейся ММО-игрой, для серверных разработчиков проводили тренинг как искать медленный код. Причём тренировались мы на реальном коде сервера. В итоге: нашли неэффективный код, ускорили его в 4 раза (+300%, однако!). А потом посчитали, что в абсолютных величинах выигрыш - примерно 1 секунда машинного времени в сутки на весь сервер целиком. То есть смысла выкатывать оптимизацию нет - на пропихивание её через весь цикл публикации ушло бы куда больше времени, чем она вообще могла бы сэкономить.

Мораль: для хорошей оптимизации нужно не только и не столько код смотреть, сколько весь продукт целиком. Желательно ещё и в контексте работы организации.

ermadmi78 5 янв в 21:56

Для 98% проектов мой подход и вправду не имеет смысла. Но на рынке есть примерно 2% высоконагруженных проектов, с жёсткими требованиями по времени отклика. И это не игрушки. Там оптимизация экономит миллионы рублей. И там эффективен научный подход.

MAT-POC 5 янв в 23:36

Этот научный подход - когда рассматриваются вся производственная система/цепочка в целом, и оптимизируется не всё подряд, то что на поверхности, или не эффективно (как в производственной системе компании Тойота), а ищутся "бутылочные горлышки" ограничивающие производительность, и оптимизируются только они - называется Теория ограничений.

Кому интересно можно почитать книгу Элияху Голдратта "Цель".

ermadmi78 5 янв в 23:44

Да - так и есть. И именно для этого я выкатываю ВСЮ систему на стенд, даю нагрузку сопоставимую с продом, с помощью метрик ищу бутылочные горлышки, а потом на том же стенде проверяю гипотезы по оптимизации бутылочных горлышек. Что я делаю не так?

s0lgryn 6 янв в 18:24

В моем понимании стенды обычно не сопоставимы по аппаратным характеристикам с продом, каким образом вы даете нагрузку сопоставимую с продом? Вычисляете относительную разницу между стендами?

ermadmi78 6 янв в 19:16

Вот тут не имею права говорить конкретные цифры. NDA. Но, грубо говоря, на стенд даю нагрузку кратно меньшую, чем на прод. Подбираю примерно так, чтобы на одну виртуалку на стенде приходилась та же самая нагрузка, что и на одну виртуалку на проде.

ermadmi78 6 янв в 19:22

Ну и плюс поиск максимума. Плавно увеличиваю нагрузку на стенд так, что нагрузка на одну виртуалку в разы больше, чем на проде. И увеличиваю до тех пор, пока стенд не развалится. Очень помогает заранее подготовиться к стрессовым сценариям на проде.

Garemoko 12 янв в 05:37

ALE-Agent же придумал эвристику "виртуальной мощности", которая оценивает еще не запущенные машины так, будто они уже работают

Да всё так, просто как я понимаю, его подход не слишком отличается

sic 5 янв в 22:19

Хороший тренинг и конкурсы интересные! Неэффективный код, я так понимаю, искали глазами, а не профайлером?

sloww 6 янв в 08:15

В принципе "обкладываю метриками" в 2026 уж звучит странно учитывая существование opentelemetry и ему подобного, которыми зачастую обложен весь прод по умолчанию и которые сигналят сразу в дашборды при наличии проблем.

Более того, нейронки прекрасно читают эти данные и делают неплохой анализ на их основе вплоть до поиска проблем в коде на основе варнингов общей системы.

ermadmi78 6 янв в 09:51

Opentelemetry вам подскажет что из Москвы во Владивосток вы слишком долго едете. А "детали" уровнем ниже он вам не подскажет.

ermadmi78 6 янв в 10:17

Более того, нейронки прекрасно читают эти данные и делают неплохой анализ на их основе вплоть до поиска проблем в коде на основе варнингов общей системы.

Если речь идёт про "стандартные" проекты и стандартные проблемы - то да, там нейронка может что то и изобразит. Но там чаще всего и оптимизировать что то смысла нет. А если речь идёт про те 2% высоконагруженные проектов, о котрых пишу я - то нет. Там вам нейронка ничем не поможет. Над такими системами работают серьёзные специалисты. Стандартные проблемы они быстро фиксят сами. Больше всего боли вызывают нестандартные проблемы, где ИИ бесполезен.

SwingoPingo 6 янв в 10:56

Вопрос управления рисками. Начиная с какого то уровня нет плохих/хороших решений, есть решение которое может стать неподходящим в случае реализации сценария 1 или отличным в случае нереализации. Написали Вы 2 года назад нагруженную систему, которая требует объемов ОЗУ, но работает быстро, а цена на память прыгнула (эти риски непросчитываемы), Вы ж не стали от этого плохим программистом. На каком то уровне исчезает вопрос: "как лучше?", возникает "какие риски мы на себя готовы взять?" и их стоимость. ИИ не заберет на себя риски и сопутствуюшие убытки, ей все равно.

ermadmi78 6 янв в 11:28

Да, риски и долгосрочная стратегия развития проекта это вообще отдельная тема. В разработке важно не то, с какой скоростью мы бежим а то, в каком направлении мы бежим. Иначе внезапно выясняется, что мы очень быстро бегаем по кругу. И тут ИИ совершенно бесполезен. Причём тут он бесполезен не только на тех 2% нагруженных проектах, про которые я говорил, но и на стандартных проектах.

sloww 6 янв в 15:10

Нейронке не надо что то изображать, она дополнительный слой анализа за счет своего "багажа знаний" и "консультант". Использовать даже последние модели для багофиксов прода в высоконагруженных системах я бы лично не стал :) А вот накидать ей гору метрик и архитектуру проекта с просьбой анализа - вполне ок.

ermadmi78 6 янв в 19:29

Вот по поводу архитектуры проекта... Ох, лучше не надо :) Черевато.

ermadmi78 6 янв в 20:18

Постараюсь объяснить свое мнение о том, что не стоит отдавать проектирование архитектуры ИИ.

Вот представьте, что вы решили построить себе дорогущий загородный дом. За 100 лямов например. И решили сэкономить на архитекторе, и попросили нарисовать архитектуру ИИ. Предположим, у вас есть доступ к наикрутейшему строительному ИИ. И он, по вашему запросу нарисовал вам шикарный дом. Вы его построили, вложились, всё обустроили, въехали туда, и решили жить долго и счастливо. Вы там прижились, дом и вправду получился шикарный, удобный, тёплый и уютный. Но, через 3 года вы заметили трещину на стене возле входа в подвал. Трещина небольшая, и на вид нестрашная. Вы замазали её раствором, покрасили, и на этом успокоились. Но, через пол года трещина появилась вновь, начала расползаться, проникла в комнату. И как бы вы её не замазывали, она появлялась вновь, и становилась всё длиннее и шире. В доме появилась сырость. На стенах начала расти плесень. Посыпалась штукатурка с потолка.

Вы вызвали специалиста. Он обследовал дом, и говорит, что при проектировании была допущена одна ошибка - ИИ не учёл характер грунта под домом. Там подземные воды и плавуны. И заложил недостаточно прочный фундамент для такого грунта. И, под действием веса дома фундамент начал разъезжаться. И что замазывание трещин вам ничем не поможет - через год максимум дом неизбежно развалится.

Что мы на этом примере видим. Первое - гигантская стоимость архитектурной ошибки. Второе - стратегический уровень риска. Если вам криво поклеили обои - их не проблема переклеить, и с домом ничего не будет. А если вам заложили недостаточно прочный фундамент, то дом развалится целиком, и вы потеряете всё.

Почему такое произошло? Да потому, что проектирование архитектуры это прежде всего умение просчитать ситуацию на 100 шагов вперёд. Оценить и минимизировать риски. Избежать оверинженеринга. Для этого недостаточно просто прочитать книжку по шаблонам проектирования. Нужен богатый жизненный и профессиональный опыт. Нужна адекватность и ответственность. Нужен элементарный здравый смысл. Т.е. тут нужны качества, которых у ИИ нет и не предвидется.

На всякий случай - в строительстве домов я разбираюсь примерно как свинья в апельсинах. Поэтому мой пример это не более, чем художественная аллегория. Не надо в ней искать "инженерные" ошибки.

Wesha 7 янв в 09:02

Опыт — он дорогого стОит...

ilnuribat 5 янв в 22:28

Был классный пример из книги совершенный код, где студент нашел неоптимальный цикл в проекте, ускорил его в порядки, и пошел хвастаться, а ему сказали, что это был цикл "бездействия системы"

ermadmi78 5 янв в 22:37

Цикл бездействия системы имеет смысл только тогда, когда внутри цикла поток уходит в спячку и освобождает ресурсы. А иначе busy loop получается, который просто на 100% загружает одно ядро ненужными действиями.

Если было что ускорять, значит внутри цикла поток в спячку не уходил. И значит тут оба неправы - и студент, который "ускорил" этот цикл и автор цикла, который бездействие системы реализовал с помощью busy loop.

Viacheslav01 6 янв в 01:28

Когда совершенный код писали, другие реали были.

ermadmi78 6 янв в 06:32

Тогда какой смысл опираться на практики из "других реалий" в современном мире? И приводить эту книгу в качестве примера?

Neusser 6 янв в 08:20

Очевидно, что смысл примера в том, чтобы показать, что оптимизация нужна далеко не всегда.

ermadmi78 6 янв в 10:06

Только вот новичёк этот ваш пример из "другой реальности" воспримет буквально, и пойдёт busy loop писать. Не лучше ли приводить более актуальные примеры для объяснения азбучных истин?

sic 5 янв в 22:22

Но и фигню довольно часто предлагает. На одном этом даже ощущения "переломности/не переломности" не построить.

Но мне и малого достаточно, что теперь я свободно ориентируюсь там, где раньше неделями пришлось бы изучать детали.

Nalivai 5 янв в 22:39

LLM никогда не откажется что-то предложить, это да. В этих ваших скулях не знаю, может там что и по другому, а вот в моих применениях процент пользы в этих его предложениях настолько мал, а проверять это настолько тяжело, что польза сугубо отрицательная

rbdr 5 янв в 23:18

А вот совсем уже и не факт. Как раз тот же Клод может предлагать ничего не делать и варианты "и так сойдет"

Vladimir_III 5 янв в 22:40

А мне эти же ИИ выдают код с переполением int, утечками памяти или неоптимизированным использованием пзу вместо кэширования

Wesha 6 янв в 02:11

Это просто та же самая ситуация, что и с дельфинами («Те утопающие, кого дельфины толкали к берегу, рассказывают, что дельфины спасают людей. Те утопающие, кого дельфины толкали от берега, уже никому ничего не расскажут»). ГСЧ выдаёт правильный ответ — «уууууу, смотрите, какое оно умное!», ГСЧ выдаёт неправильный ответ — «это фигня, надо просто попробовать ещё раз (а потом ещё и ещё)».

numb13 6 янв в 05:54

"Ошибка выжившего"

Wesha 6 янв в 06:34

Хуже — черри-пикинг.

НЛО прилетело и опубликовало эту надпись здесь

BlackMokona 6 янв в 06:22

Или просто используете глупые ИИ, или не умеете пользоваться. Вариантов много

Wesha 6 янв в 06:38

Как насчёт такого финта ухами: я даю Вам, вооружённому любым ИИ по Вашему выбору, которым Вы «умеете пользоваться», тестовую, но абсолютно реальную задачку (которую я, ничтожный человечишко, вполне себе решил) — и мы вместе посмотрим, в реальном времени, как оно шмогёт за пять минут?

(Прикол в том, что этой задачки нет ни в каких задачниках, но она имеет абсолютно формализованный критерий успешности решения: код либо работает, либо нет, и по заданным входным данным либо выдаёт известный правильный ответ, либо нет.)

axion-1 6 янв в 08:30

Статья как раз про тестирование AI на задачах которых нет в задачниках. Вы же не думаете что его тестят только на задачах с опубликованными решениями?

fongostev 6 янв в 08:31

Ой, а можно мне, только не в реальном времени?)

Интересно взглянуть на такую задачку.

Wesha 6 янв в 09:02

В двух словах и очень упрощённно: имеется исходный код на языке L1 (LLMки этот язык знают, проверял) некоей софтины S1. Известно, что софтине S1 был дан файл F1, и в результате её работы получился файл F2. Задача: на другом языке написать софтину S2, которая, если ей дать файл F2, вернёт файл F1. Использование библиотек разрешено.

SwingoPingo 6 янв в 09:13

Там потери данных при прямом преобразовании не происходит?

Wesha 6 янв в 09:18

Я же говорю: программу, выполняющую обратное преобразование, я лично написал, и она работает (по файлу F2 возвращает файл F1). Следовательно, решение существует, и LLM должно шмочь. Если, конечно, оно хоть наполовину такое же умное.

Код софтины S1 короткий, всего около 2-3 кб, работает в реальном времени. Код софтины S2 ничем не ограничивается.

(А потом есть следующая задача, со звёздочкой — тот же принцип, но преобразование уже с коррекцией ошибок; файл F2 пусть и может содержать ошибки, но файл F1 всё равно получается правильный. Код тоже мной написан и работает.)

SwingoPingo 6 янв в 09:59

Так если f1 постоянен, то просто вернуть f2 целой заготовкой и номинально это будет подходящим решением для ТЗ. Но будь все так, Вы б этого не писали, верно?

Поэтому сразу вопрос - не происходит ли потери информации при прямом преобразовании f2 = s1(f1) , содержит ли f2 всю полноту информации для обратного преобразования?

Так то даже задача f2=s2(f1) так, что бы f2s1=f2s2 не самая тривиальная, если язык (и типы данных и их обработка) s1 <> s2

Wesha 6 янв в 10:32

Так если f1 постоянен, то просто вернуть f2 целой заготовкой и номинально это будет подходящим решением для ТЗ.

Да ради Сагана, пускай ИИ так напишет — и очень удивится, когда на «выпускном экзамене» на вход будет подан совершенно другой файл.

Немножко приоткрою завесу: речь идёт об одной (примитивной) СХД. А система, которая не может прочитать данные, которые сама же записала — мягко говоря, никому не нужна.

Politura 6 янв в 15:41

А чем продиктовано условие написать распаковщик именно за 5 минут?

Так-то задача не выглядит сложной, можно дать какой-нибудь модели через claude-code вместе с тестом где изначальная софтина будет сжимать, а новонаписанная расжимать и чтоб он фигачил пока тест не покажет, что файлы вначале и в конце одинаковые. Оно справится, если накосячит где, то ошибки искать умеет, но сделает не за 5 минут, а дольше.

Wesha 6 янв в 19:32

с тестом где изначальная софтина будет сжимать, а новонаписанная расжимать и чтоб он фигачил пока тест не покажет, что файлы вначале и в конце одинаковые.

..И после N итераций окажется, что человек написал бы быстрее.

А чем продиктовано условие написать распаковщик именно за 5 минут?

Да можно не за 5, можно хоть за 65. Но оно должно всё сделать само, без подсказок человека (потому что мы сравниваем «человека против ИИ», а не «умного человека с ЕИ против ту не очень умного человека с ИИ».)

Politura 7 янв в 20:43

Но оно должно всё сделать само, без подсказок человека

Мне кажется все агентские тулзы для кодинга таким образом сделаны (как минимум, roo-code, claude-code, и их аналоги, не знаю про курсор). Оно само составляет план выполнения запроса, исполняет, тестит, исправляет ошибки и так до тех пор, пока не заработает.

Иногда, когда запрос слишком расплывчатый, предложит на выбор несколько вариантов выполнения на этапе планирования, и ты выбираешь.

Wesha 7 янв в 21:44

Так я и говорю: дан исходный код функции, которая сгенерировала файл — куда уж однозначнее?

ValeriyPush 6 янв в 04:42

this contest, by using a scheduling problem as a subject, we will challenge a problem of finding a better solution instead of the optimal solution

Это же поиск эвристик. DreamCoder

ALE-Agent же придумал эвристику "виртуальной мощности", которая оценивает еще не запущенные машины так, будто они уже работают.

Да какие угодно эвристические функции, хоть в миллион шагов

Кроме того, агент реализовал нестандартные операции поиска в окрестности, позволяющие радикально перестраивать план и выходить из локальных оптимумов

Ого, просто удивительно. Глобальная оптимизация\Монте-карло?

***

Вообще парни из Sakana странные - написал им, что они там пробуют патентовать мой алгоритм, пусть вышлют денег - тишина :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий