Если рассматривать решение как программу, то выглядит плохо, но если рассматривать как обучение модели - просто мы пишем не в веса, а в промпт и питоний скрипт -, то это типичный ML
Затем, что те знают больше и лучше. А знание синтаксиса фигни 2.1 - это 2% того что нужно знать для вашей работы. Так что человек, знающий фигню, может знать 50% всего что нужно знать у вас, а не знающий фигню - 98%
То, что гемини больше фантазирует это известно. Есть и бенчмарки на это. Да и особо её и не тренировали против фантазий, в отличие от гпт 5+, где был большой фокус на этом
Так сервер никто и не реализовал же. Он ещё и от языка зависит. Засунули клиент разве нет? Ну и на практике, это не так важно во многих случаях. По крайней мере, агенты, в которых он давно есть, например OpenCode, какого-то огромного преимущества не имеют.
То, что ты описываете завсегда делалось миддлом за две недели. Просто кто-то придумал микросервисы, солид, кубернетесы и прочий скрам и привет - это теперь делается целой командой месяц-два. Параллельный мир, в котором миддл по-прежнему сбацает это вордпрессе, вложен в наш.
Скорее всего меньше. Так-то люди нынче до годов так 23-24 не работают, а учатся или балду пинают. Многие и потом пинают. На многих работах можно просто не бить лежачего.
У вас просто пример не типичный, поэтому и выводы странные. В типичной коммерческой разработке нижний уровень прост - условное перекладывание джсонов, а в архитектуре сложность есть. И, соответственно, агенты там лажают именно в архитектуре. Причем ошибки делают дебильные - дублирование кода, помещение кода не в тот модуль, высокая связность и т.п.
Тесты и прочее недостаточно справляться. В общем не работает это так. И именно что помощник, и именно что помогает, причём не как Джун, а совсем по-другому. ИИ - Джун ещё одна популярная, но не работающая аналогия
Так сгенерированный код точно также должен работать и точно также нужно поддерживать, поэтому и требования такие же. Это логично. Другое дело, что требования, которые сейчас предъявляются бывают излишни, я уже приводил пример с шейдером, но из больше, конечно. Но и обратных примеров можно набросать.
Аналогия, что дескать раньше были компиляторы и мы переходили на языки более высокого уровня, и на смотрим во что они там компилируются, не работает, компилятор поведение программы никак не меняет (кроме производительности отчасти), оно задаётся программой. Про ИИ такого сказать нельзя.
Нет эффективного способа проверить, что черный ящик работает правильно в общем случае. Белый ящик из-за проблемы останова тоже однозначно не валидируется, но на практике работают всякие эвристики.
В частных случаях же вполне может работать и чёрный и белый ящик. Например, на код шейдера наплевать, если он рисует то, что требуется и делает это достаточно быстро - он же никак на наружу не влияет и его действительно можно перегенерировать при надобности.
Есть разница всё время руку на пульсе держать и подпинывать или ревьюить, когда уже всё готово в целом. В первом случае, это однозначно роняет продуктивность.
Гугл свою Про не обновлял ещё, а китайские модели отстают всё-таки. Соннет 4.5 для кодинга сейчас самый топ.
Есть нюансы:
для анализа и составления планов лучше будет gpt-5, опус или даже гемини 2.5 про
для ревью кода когда как
клод на соннете чаще пишет работающий код, но оверинденирит и добавляет много слопа из ненужных ифов и т.п. гпт-5/гемини и много других в этом отношении получше
Однако работающий код со слопом - это неплохо потому что позволяет реже дергать человека, более крупные куски агент делает самостоятельно, и если инструкции сделаны, то и рефакторит, и тестирует, и отлаживает. А человек - это узкое место, так что чем реже его дергать, тем больше продуктивность. Таким образом модели/агенты пишущие код лучше, но менее железобетонно проигрывают.
Если рассматривать решение как программу, то выглядит плохо, но если рассматривать как обучение модели - просто мы пишем не в веса, а в промпт и питоний скрипт -, то это типичный ML
Затем, что те знают больше и лучше. А знание синтаксиса фигни 2.1 - это 2% того что нужно знать для вашей работы. Так что человек, знающий фигню, может знать 50% всего что нужно знать у вас, а не знающий фигню - 98%
То, что гемини больше фантазирует это известно. Есть и бенчмарки на это. Да и особо её и не тренировали против фантазий, в отличие от гпт 5+, где был большой фокус на этом
Обычное искажение восприятия
Так сервер никто и не реализовал же. Он ещё и от языка зависит. Засунули клиент разве нет?
Ну и на практике, это не так важно во многих случаях. По крайней мере, агенты, в которых он давно есть, например OpenCode, какого-то огромного преимущества не имеют.
То, что ты описываете завсегда делалось миддлом за две недели. Просто кто-то придумал микросервисы, солид, кубернетесы и прочий скрам и привет - это теперь делается целой командой месяц-два. Параллельный мир, в котором миддл по-прежнему сбацает это вордпрессе, вложен в наш.
Скорее всего меньше. Так-то люди нынче до годов так 23-24 не работают, а учатся или балду пинают. Многие и потом пинают. На многих работах можно просто не бить лежачего.
У вас просто пример не типичный, поэтому и выводы странные. В типичной коммерческой разработке нижний уровень прост - условное перекладывание джсонов, а в архитектуре сложность есть. И, соответственно, агенты там лажают именно в архитектуре. Причем ошибки делают дебильные - дублирование кода, помещение кода не в тот модуль, высокая связность и т.п.
Просто ллм решил, что он и так всё знает, а автор не читал и не сказал ему в инетах пошукать
Тесты и прочее недостаточно справляться. В общем не работает это так. И именно что помощник, и именно что помогает, причём не как Джун, а совсем по-другому. ИИ - Джун ещё одна популярная, но не работающая аналогия
Так сгенерированный код точно также должен работать и точно также нужно поддерживать, поэтому и требования такие же. Это логично. Другое дело, что требования, которые сейчас предъявляются бывают излишни, я уже приводил пример с шейдером, но из больше, конечно. Но и обратных примеров можно набросать.
Аналогия, что дескать раньше были компиляторы и мы переходили на языки более высокого уровня, и на смотрим во что они там компилируются, не работает, компилятор поведение программы никак не меняет (кроме производительности отчасти), оно задаётся программой. Про ИИ такого сказать нельзя.
Нет эффективного способа проверить, что черный ящик работает правильно в общем случае. Белый ящик из-за проблемы останова тоже однозначно не валидируется, но на практике работают всякие эвристики.
В частных случаях же вполне может работать и чёрный и белый ящик. Например, на код шейдера наплевать, если он рисует то, что требуется и делает это достаточно быстро - он же никак на наружу не влияет и его действительно можно перегенерировать при надобности.
Всё круто, но если этим принципам следовать, то ллм будут тебя замедлять, а не ускорять.
SWE bench 53% на уровне Gemini Pro 2.5, это очень круто для небольшой модели. До 70-65 у соннета и гпт-5 далеко, конечно
Есть разница всё время руку на пульсе держать и подпинывать или ревьюить, когда уже всё готово в целом. В первом случае, это однозначно роняет продуктивность.
Я его на луа гонял.
Люди почти все свои дела делают с помощью рук, но руки людьми не повелевют.
Гугл свою Про не обновлял ещё, а китайские модели отстают всё-таки. Соннет 4.5 для кодинга сейчас самый топ.
Есть нюансы:
для анализа и составления планов лучше будет gpt-5, опус или даже гемини 2.5 про
для ревью кода когда как
клод на соннете чаще пишет работающий код, но оверинденирит и добавляет много слопа из ненужных ифов и т.п. гпт-5/гемини и много других в этом отношении получше
Однако работающий код со слопом - это неплохо потому что позволяет реже дергать человека, более крупные куски агент делает самостоятельно, и если инструкции сделаны, то и рефакторит, и тестирует, и отлаживает. А человек - это узкое место, так что чем реже его дергать, тем больше продуктивность. Таким образом модели/агенты пишущие код лучше, но менее железобетонно проигрывают.
Пики можно регулировать ценой как Яндекс такси/убер
Минимакс м2 лепит не работающую кашу. Gemini CLI, который пока бесплатный, намного лучше работает
Вот только они намного тупее. Т.е. требуют намного больше ручного управления, настолько, что там однозначно они снижают продуктивность.