runaway_llm Mar 10 at 04:01

ИИ пишет код, но не может его поддерживать: представлен первый CI-бенчмарк для ИИ-агентов

2 min

25K

Artificial IntelligenceMachine learning *

+22

Comments 32

AraTropia Mar 10 at 04:17

Это... На удивление красноречиво поясняет реальные впечатления от использования моделей. Разве что ГЛМ 5 часто неспособный даже написать предложение не меняя язык на китайский/английский по ощущениям выбивается слегка.(но вот именно агентно кодит он неплохо, на уровне описанном в бенчмарке)

BobovorTheCommentBeast Mar 10 at 04:36

И это так же показывает насколько антропик впереди. Это так же отражает ощущения и заявления даже скептиков. Клод может и без людей.

Если оно станет сильно дешевле и еще немного лучше — это господа, ВСЕ.

Перехожу с иглы дедовского нейропессимизма, на вайбкодерское лицо. (А оттуда на улицу). Прошу проследовать за художниками.

Dhwtj Mar 10 at 06:09

Прошу проследовать за ху

И вам туда же

С утра в сотый раз читать что тебя уволят - то ещё удовольствие

BobovorTheCommentBeast Mar 10 at 07:17

Да я и сам задрался, дайте поистерить тоже. Устал от нейростоицизма.

Alukos Mar 10 at 06:49

Интересно с чего бы ему стать дешевле если они продают на суммы, по моим прикидкам, где-то на порядок меньше чем тратят?

BobovorTheCommentBeast Mar 10 at 07:22

Так или иначе, вместо рынка ГЕЙмеров, производители параллельных вычисляторов ака видаков получили хороший, постоянный рынок сбыта.

В долгосрочном периоде видаки станут лучше, ллм оптимизирование. Даже если антропики и альтманы все эти сейчас громко грохнутся, потом вырастет другие.

Я не говорю, что вот все уже завтра, но все.

gabirx Mar 10 at 07:36

что вы имеете в виду под "видаками"?

toh99 Mar 10 at 07:52

Очевидно, видеокарты. И да, я тоже ожидаю после нынешнего ажиотажа и дефицита плавный откат к нормальным ценам (и надеюсь на рост вычислительной мощности)

Gh0stNeutrino Mar 10 at 07:59

Совсем не очевидно, для многих видаки - это видеомагнитофоны :) Слышал что растет популярность mp3 плееров, из-за отключений и замедлений мобильного интернета. Возможно так же снова будут популярны видаки, особенно если смогут смотреть прямо с торрентов

elxanders Mar 10 at 09:26

Не очень понимаю смысла в отдельных МП3 плейерах как будто в тот же смартфон нельзя закачать файлы. Да, в отдельных устройствах как правило стоят сильно лучше ЦАПы и выше автономность, но если раньше с онлайном тебя оные устраивали в твоем смартфоне как-то так себе отмазка.

ShadF0x Mar 10 at 10:49

Клод может и без людей

...накосячить.

Dhwtj Mar 10 at 06:06

Не ломать старые тесты - так себе метрика.

Интереснее количество переписанного кода на последних итерациях. Плохая архитектура, высокая связность приведёт к необходимости переписывать большие куски либо закрываться от старого легаси уродскими адаптерами.

Suor Mar 10 at 06:38

Ну такой тест и люди не пройдут)

Dhwtj Mar 10 at 07:02

Пройдут если их предупредить, что программа должна долго поддерживаться (закрывать баги и развиваться)

Spyman Mar 10 at 10:31

Полностью поддерживаю. Codex был замечен в каскадном увеличении кода - когда ты ставишь ему задачу добавить "поддержку нового типа в карточккх" - условно, и на деле нужно добавить подтип данных, а он копирует всю карточку целиком, и большую часть обвязки, а точки входа обмазывает if (type ==1) if (type == 2).

Круто конечно, что итоговый код может даже работать и тесты выполнять, но уже через 5 итераций он может так распухнуть, что никаких токенов не хватит.

Хотя может у опуса с этим дела лучше.

Suor Mar 10 at 11:43

У опуса лучше и даже у сонета. Такое весьма редко приходится видеть.

Dhwtj Mar 10 at 16:19

Это вполне естественный процесс и LLM попадает в ту же ловушку что и человек. Смотри книгу clean architecture
Там вначале графики резкого замедления разработки с ростом сложности.
Мартин предлагает: инвертировать зависимости, чтобы бизнес-логика не зависела от инфраструктуры (БД, UI, фреймворки). Границы слоев, dependency rule - зависимости только внутрь.

Это довольно трудоемко и хорошо работает только для нового кода, а не для легаси
Хотя... для LLM проблема даже острее, чем для человека. Человек может провести рефакторинг, удерживая в голове архитектурное видение. LLM работает в рамках контекстного окна и не имеет долговременного понимания проекта - поэтому деградация кода при итеративной генерации практически неизбежна без внешнего архитектурного контроля.

Krasovsky Mar 10 at 06:56

Использую сетки для проверки своего кода. Задача: поллинг с использованием observavle rest. Моя реализация: вместо interval использовал timer, который вызывает поллинг реквест с observavlble result. По его итогам пеезапускаем таймер. Таймер нужен для того что бы поллинг не звался по КД. Минусы: время между реквестами зависит от скорости выполнения последнего реквеста. Сетка: переписывает на интервал в котором не учитывает закончился ли поллинг реквест и теоретически шлёт несколько в параллель. Прошу учесть это - учитывает и заодно начинает шеймить другой кусок кода, который сама нарисовала в первой итерации.

kuza2000 Mar 10 at 08:50

Странный набор моделей. Где Sonnet 4.6? Ну а уж GPT 5.4 по любому нужно было включить. А так получается, что передовые модели от Anthropic есть, а от OpenAI - нет...

elxanders Mar 10 at 09:30

Да и отсутствие Gemini. На мелких задачах она мне по крайней мере сильно меньше глючила чем GPT или даже opus. То что китайцы на мало что реальное способны это вполне очевидный факт.

Dhwtj Mar 10 at 16:36

Gemini тоже глючит. Вечно затирает мои комментарии, "улучшает" названия переменных. В общем, не пригоден
Даже kimi более дисциплинирован и иногда более креативен

mrsantak Mar 10 at 15:54

Ну а уж GPT 5.4 по любому нужно было включить

Исследование опубликовано за день до релиза GPT 5.4.

diralik Mar 10 at 20:44

5.3-codex могли включить.

jvw Mar 10 at 10:08

интересно какой именно qwen-3.5 использовали. Они есть от 3b до 397B, насколько мне известно.

Spyman Mar 10 at 10:34

Как будто если не указано квантование - значит использовались максимально большие неквантованные модели. Но то, что по хорошему лучше ясно указать чем не указать - согласен

Suor Mar 10 at 11:46

Это не квантование, а разные модели. Как Gemini 3 Pro и Gemini 3 Flash

jvw Mar 10 at 18:43

Квантование это округление параметров, грубо говоря становится меньше знаков после запятой и они занимают меньше памяти, в то время, как, 397B это кол-во параметров. Чтобы грубо оценить вес модели нужно кол-во параметров умножить на 4, т.к. если модель FP32 - то на параметр приходится 32 бита или 4 байта в переводе. А если квантовать ей в 4 (т.е. qwen-3.5-397B-Q4) -> параметр будет весить 4 бита или 0.5 байта в переводе. Что касается 397B и 9B то это, по сути, разные модели - количество параметров разное.

LionMuzzle Mar 10 at 12:38

Интересно было бы узнать, каким инструментом пользовался агент, чтобы понимать и накапливать контекст проекта от задачи к задаче. В идеале хотелось бы, чтобы со временем агент понимал и помогал все лучше и лучше в рамках конкретного проекта.

Так что даже в этом бенчмарке все сильно зависит от того, как это настроено - есть ли mcp, как устранены rules, по сути это системный промпт.

Вообще, метрика интересна. Ведь мы все хотим, чтобы агенты лучше понимали всю кодовую базу проекта и учитывали ее при генерации кода, а не вели себя, как рыба Дори, забывая все важное.

jvw Mar 10 at 19:19

Насколько я понял, они использовали iFlow Cli два агента: Архитектор и Программист. Они брали реальный репозиторий (какого-нибудь публичного проекта) в исходном состоянии и какой-нибудь целевой коммит (спустя долгое время, в среднем почти год или 70 коммитов спустя). Ставилась задача пройти путь от базы до целевого коммита внося изменения итеративно. В каждой итерации Архитектор генерил файл requirements.xml для Программиста который попадал в его контекст с остальными файлами проекта. Что касается MCP, то у IFlow CLI он полностью поддерживается, но судя по описанию теста не использовался. Там прямо говориться что агентам было запрещено выходить за границы директории проекта, запускать тесты, и т.д.

iliuxa007 Mar 11 at 05:14

я не программист, но с нейронками делаю для себя разные скрипты.так вот ChatGPT - это жуть, добиться от него целого готового скриптна на 500-1000 строк не реально.
Он начинает адски душнить и вдавать какие то стратегии, куски кода, планы действий. Deepseek и Qwen сразу выдают целый скрипт за одни запрос без лишних рассуждений и увода темы чата в сторону.
Например спустя полгода я возвращаюсь к нейронке со своим скриптом для доработки - буквально за 2-3 прохоа я могу от китайцев добиться рабочей обновленной версии. ChatGPT на подписке начинает заниматся куйней - то урежет код с 1000 до 200 строк и в итоге получаешь полностью не рабочее, то задушнит так что потратит часы времени в пустую.
я уже с ним чуть ли не матом пишу - пока не добьюсь что бы он отдал не кодом на странице а файлом для скачивания.

KVentz Mar 11 at 12:23

Меня Deepseek немного раздражал своим набрасыванием вариантов. Вот тебе попроще, вот тебе поуниверсальнее, вот тебе совсем крутой, если нужна проверка входящих данных… По пять вариантов на один запрос. Сначала прикольно, потом начинаешь немного уставать…

jvw Mar 11 at 19:56

В целом тяжеловато что-то делать когда это происходит не в IDE, а в окне браузера. Но все же тоже изредка этим грешу)). Конкретно про облачный deepseek могу сказать, что если сначала обговорить с ним архитектуру или продумать ее самому (или описать если она уже разработана), а deepseek'у максимально конкретизировать задачу - то он не занимается такой ерундой.

А в целом работа через ИИ это постоянный жесткий codereview, даже покруче чем с джунами. И задачи описывать приходится мегаподробно. А там где мегаподробно описывать не нужно - проще самому руками сделать. Может, конечно, я что-то не так делаю :)