Pull to refresh

Comments 32

Это... На удивление красноречиво поясняет реальные впечатления от использования моделей. Разве что ГЛМ 5 часто неспособный даже написать предложение не меняя язык на китайский/английский по ощущениям выбивается слегка.(но вот именно агентно кодит он неплохо, на уровне описанном в бенчмарке)

И это так же показывает насколько антропик впереди. Это так же отражает ощущения и заявления даже скептиков. Клод может и без людей.

Если оно станет сильно дешевле и еще немного лучше — это господа, ВСЕ.

Перехожу с иглы дедовского нейропессимизма, на вайбкодерское лицо. (А оттуда на улицу). Прошу проследовать за художниками.

Прошу проследовать за ху

И вам туда же

С утра в сотый раз читать что тебя уволят - то ещё удовольствие

Да я и сам задрался, дайте поистерить тоже. Устал от нейростоицизма.

Интересно с чего бы ему стать дешевле если они продают на суммы, по моим прикидкам, где-то на порядок меньше чем тратят?

Так или иначе, вместо рынка ГЕЙмеров, производители параллельных вычисляторов ака видаков получили хороший, постоянный рынок сбыта.

В долгосрочном периоде видаки станут лучше, ллм оптимизирование. Даже если антропики и альтманы все эти сейчас громко грохнутся, потом вырастет другие.

Я не говорю, что вот все уже завтра, но все.

что вы имеете в виду под "видаками"?

Очевидно, видеокарты. И да, я тоже ожидаю после нынешнего ажиотажа и дефицита плавный откат к нормальным ценам (и надеюсь на рост вычислительной мощности)

Совсем не очевидно, для многих видаки - это видеомагнитофоны :) Слышал что растет популярность mp3 плееров, из-за отключений и замедлений мобильного интернета. Возможно так же снова будут популярны видаки, особенно если смогут смотреть прямо с торрентов

Не очень понимаю смысла в отдельных МП3 плейерах как будто в тот же смартфон нельзя закачать файлы. Да, в отдельных устройствах как правило стоят сильно лучше ЦАПы и выше автономность, но если раньше с онлайном тебя оные устраивали в твоем смартфоне как-то так себе отмазка.

Не ломать старые тесты - так себе метрика.

Интереснее количество переписанного кода на последних итерациях. Плохая архитектура, высокая связность приведёт к необходимости переписывать большие куски либо закрываться от старого легаси уродскими адаптерами.

Ну такой тест и люди не пройдут)

Пройдут если их предупредить, что программа должна долго поддерживаться (закрывать баги и развиваться)

Полностью поддерживаю. Codex был замечен в каскадном увеличении кода - когда ты ставишь ему задачу добавить "поддержку нового типа в карточккх" - условно, и на деле нужно добавить подтип данных, а он копирует всю карточку целиком, и большую часть обвязки, а точки входа обмазывает if (type ==1) if (type == 2).

Круто конечно, что итоговый код может даже работать и тесты выполнять, но уже через 5 итераций он может так распухнуть, что никаких токенов не хватит.

Хотя может у опуса с этим дела лучше.

У опуса лучше и даже у сонета. Такое весьма редко приходится видеть.

Это вполне естественный процесс и LLM попадает в ту же ловушку что и человек. Смотри книгу clean architecture
Там вначале графики резкого замедления разработки с ростом сложности.
Мартин предлагает: инвертировать зависимости, чтобы бизнес-логика не зависела от инфраструктуры (БД, UI, фреймворки). Границы слоев, dependency rule - зависимости только внутрь.

Это довольно трудоемко и хорошо работает только для нового кода, а не для легаси
Хотя... для LLM проблема даже острее, чем для человека. Человек может провести рефакторинг, удерживая в голове архитектурное видение. LLM работает в рамках контекстного окна и не имеет долговременного понимания проекта - поэтому деградация кода при итеративной генерации практически неизбежна без внешнего архитектурного контроля.

Использую сетки для проверки своего кода. Задача: поллинг с использованием observavle rest. Моя реализация: вместо interval использовал timer, который вызывает поллинг реквест с observavlble result. По его итогам пеезапускаем таймер. Таймер нужен для того что бы поллинг не звался по КД. Минусы: время между реквестами зависит от скорости выполнения последнего реквеста. Сетка: переписывает на интервал в котором не учитывает закончился ли поллинг реквест и теоретически шлёт несколько в параллель. Прошу учесть это - учитывает и заодно начинает шеймить другой кусок кода, который сама нарисовала в первой итерации.

Странный набор моделей. Где Sonnet 4.6? Ну а уж GPT 5.4 по любому нужно было включить. А так получается, что передовые модели от Anthropic есть, а от OpenAI - нет...

Да и отсутствие Gemini. На мелких задачах она мне по крайней мере сильно меньше глючила чем GPT или даже opus. То что китайцы на мало что реальное способны это вполне очевидный факт.

Gemini тоже глючит. Вечно затирает мои комментарии, "улучшает" названия переменных. В общем, не пригоден
Даже kimi более дисциплинирован и иногда более креативен

Ну а уж GPT 5.4 по любому нужно было включить

Исследование опубликовано за день до релиза GPT 5.4.

5.3-codex могли включить.

интересно какой именно qwen-3.5 использовали. Они есть от 3b до 397B, насколько мне известно.

Как будто если не указано квантование - значит использовались максимально большие неквантованные модели. Но то, что по хорошему лучше ясно указать чем не указать - согласен

Это не квантование, а разные модели. Как Gemini 3 Pro и Gemini 3 Flash

Квантование это округление параметров, грубо говоря становится меньше знаков после запятой и они занимают меньше памяти, в то время, как, 397B это кол-во параметров. Чтобы грубо оценить вес модели нужно кол-во параметров умножить на 4, т.к. если модель FP32 - то на параметр приходится 32 бита или 4 байта в переводе. А если квантовать ей в 4 (т.е. qwen-3.5-397B-Q4) -> параметр будет весить 4 бита или 0.5 байта в переводе. Что касается 397B и 9B то это, по сути, разные модели - количество параметров разное.

Интересно было бы узнать, каким инструментом пользовался агент, чтобы понимать и накапливать контекст проекта от задачи к задаче. В идеале хотелось бы, чтобы со временем агент понимал и помогал все лучше и лучше в рамках конкретного проекта.

Так что даже в этом бенчмарке все сильно зависит от того, как это настроено - есть ли mcp, как устранены rules, по сути это системный промпт.

Вообще, метрика интересна. Ведь мы все хотим, чтобы агенты лучше понимали всю кодовую базу проекта и учитывали ее при генерации кода, а не вели себя, как рыба Дори, забывая все важное.

Насколько я понял, они использовали iFlow Cli два агента: Архитектор и Программист. Они брали реальный репозиторий (какого-нибудь публичного проекта) в исходном состоянии и какой-нибудь целевой коммит (спустя долгое время, в среднем почти год или 70 коммитов спустя). Ставилась задача пройти путь от базы до целевого коммита внося изменения итеративно. В каждой итерации Архитектор генерил файл requirements.xml для Программиста который попадал в его контекст с остальными файлами проекта. Что касается MCP, то у IFlow CLI он полностью поддерживается, но судя по описанию теста не использовался. Там прямо говориться что агентам было запрещено выходить за границы директории проекта, запускать тесты, и т.д.

я не программист, но с нейронками делаю для себя разные скрипты.так вот ChatGPT - это жуть, добиться от него целого готового скриптна на 500-1000 строк не реально.
Он начинает адски душнить и вдавать какие то стратегии, куски кода, планы действий. Deepseek и Qwen сразу выдают целый скрипт за одни запрос без лишних рассуждений и увода темы чата в сторону.
Например спустя полгода я возвращаюсь к нейронке со своим скриптом для доработки - буквально за 2-3 прохоа я могу от китайцев добиться рабочей обновленной версии. ChatGPT на подписке начинает заниматся куйней - то урежет код с 1000 до 200 строк и в итоге получаешь полностью не рабочее, то задушнит так что потратит часы времени в пустую.
я уже с ним чуть ли не матом пишу - пока не добьюсь что бы он отдал не кодом на странице а файлом для скачивания.

Меня Deepseek немного раздражал своим набрасыванием вариантов. Вот тебе попроще, вот тебе поуниверсальнее, вот тебе совсем крутой, если нужна проверка входящих данных… По пять вариантов на один запрос. Сначала прикольно, потом начинаешь немного уставать…

В целом тяжеловато что-то делать когда это происходит не в IDE, а в окне браузера. Но все же тоже изредка этим грешу)). Конкретно про облачный deepseek могу сказать, что если сначала обговорить с ним архитектуру или продумать ее самому (или описать если она уже разработана), а deepseek'у максимально конкретизировать задачу - то он не занимается такой ерундой.

А в целом работа через ИИ это постоянный жесткий codereview, даже покруче чем с джунами. И задачи описывать приходится мегаподробно. А там где мегаподробно описывать не нужно - проще самому руками сделать. Может, конечно, я что-то не так делаю :)

Sign up to leave a comment.

Other news