У вас просто пример не типичный, поэтому и выводы странные. В типичной коммерческой разработке нижний уровень прост - условное перекладывание джсонов, а в архитектуре сложность есть. И, соответственно, агенты там лажают именно в архитектуре. Причем ошибки делают дебильные - дублирование кода, помещение кода не в тот модуль, высокая связность и т.п.
Тесты и прочее недостаточно справляться. В общем не работает это так. И именно что помощник, и именно что помогает, причём не как Джун, а совсем по-другому. ИИ - Джун ещё одна популярная, но не работающая аналогия
Так сгенерированный код точно также должен работать и точно также нужно поддерживать, поэтому и требования такие же. Это логично. Другое дело, что требования, которые сейчас предъявляются бывают излишни, я уже приводил пример с шейдером, но из больше, конечно. Но и обратных примеров можно набросать.
Аналогия, что дескать раньше были компиляторы и мы переходили на языки более высокого уровня, и на смотрим во что они там компилируются, не работает, компилятор поведение программы никак не меняет (кроме производительности отчасти), оно задаётся программой. Про ИИ такого сказать нельзя.
Нет эффективного способа проверить, что черный ящик работает правильно в общем случае. Белый ящик из-за проблемы останова тоже однозначно не валидируется, но на практике работают всякие эвристики.
В частных случаях же вполне может работать и чёрный и белый ящик. Например, на код шейдера наплевать, если он рисует то, что требуется и делает это достаточно быстро - он же никак на наружу не влияет и его действительно можно перегенерировать при надобности.
Есть разница всё время руку на пульсе держать и подпинывать или ревьюить, когда уже всё готово в целом. В первом случае, это однозначно роняет продуктивность.
Гугл свою Про не обновлял ещё, а китайские модели отстают всё-таки. Соннет 4.5 для кодинга сейчас самый топ.
Есть нюансы:
для анализа и составления планов лучше будет gpt-5, опус или даже гемини 2.5 про
для ревью кода когда как
клод на соннете чаще пишет работающий код, но оверинденирит и добавляет много слопа из ненужных ифов и т.п. гпт-5/гемини и много других в этом отношении получше
Однако работающий код со слопом - это неплохо потому что позволяет реже дергать человека, более крупные куски агент делает самостоятельно, и если инструкции сделаны, то и рефакторит, и тестирует, и отлаживает. А человек - это узкое место, так что чем реже его дергать, тем больше продуктивность. Таким образом модели/агенты пишущие код лучше, но менее железобетонно проигрывают.
Нытьё и передёргивание. Всегда ПО было таким. Или забыли Windows 95, которая регулярно падала с экраном смерти и периодически её приходилось переустанавливать?
Ну а деньги выделенные на датацентры под ИИ вообще никакого отношения не имеют к десктопному софту, о котором тут речь.
Если кандидат выбирает из нескольких предложений, то это рынок кандидата. Если компания из нескольких кандидатов, то наоборот. Что более типично и определяет рынок. Вполне понятные и полезные понятия.
Минус - это снижает производительность. Плюсы - сильно уменьшает прокрастинацию, может предложить что-то, о чем сам не подумал, экономит время, если платформа малознакома.
У вас просто пример не типичный, поэтому и выводы странные. В типичной коммерческой разработке нижний уровень прост - условное перекладывание джсонов, а в архитектуре сложность есть. И, соответственно, агенты там лажают именно в архитектуре. Причем ошибки делают дебильные - дублирование кода, помещение кода не в тот модуль, высокая связность и т.п.
Просто ллм решил, что он и так всё знает, а автор не читал и не сказал ему в инетах пошукать
Тесты и прочее недостаточно справляться. В общем не работает это так. И именно что помощник, и именно что помогает, причём не как Джун, а совсем по-другому. ИИ - Джун ещё одна популярная, но не работающая аналогия
Так сгенерированный код точно также должен работать и точно также нужно поддерживать, поэтому и требования такие же. Это логично. Другое дело, что требования, которые сейчас предъявляются бывают излишни, я уже приводил пример с шейдером, но из больше, конечно. Но и обратных примеров можно набросать.
Аналогия, что дескать раньше были компиляторы и мы переходили на языки более высокого уровня, и на смотрим во что они там компилируются, не работает, компилятор поведение программы никак не меняет (кроме производительности отчасти), оно задаётся программой. Про ИИ такого сказать нельзя.
Нет эффективного способа проверить, что черный ящик работает правильно в общем случае. Белый ящик из-за проблемы останова тоже однозначно не валидируется, но на практике работают всякие эвристики.
В частных случаях же вполне может работать и чёрный и белый ящик. Например, на код шейдера наплевать, если он рисует то, что требуется и делает это достаточно быстро - он же никак на наружу не влияет и его действительно можно перегенерировать при надобности.
Всё круто, но если этим принципам следовать, то ллм будут тебя замедлять, а не ускорять.
SWE bench 53% на уровне Gemini Pro 2.5, это очень круто для небольшой модели. До 70-65 у соннета и гпт-5 далеко, конечно
Есть разница всё время руку на пульсе держать и подпинывать или ревьюить, когда уже всё готово в целом. В первом случае, это однозначно роняет продуктивность.
Я его на луа гонял.
Люди почти все свои дела делают с помощью рук, но руки людьми не повелевют.
Гугл свою Про не обновлял ещё, а китайские модели отстают всё-таки. Соннет 4.5 для кодинга сейчас самый топ.
Есть нюансы:
для анализа и составления планов лучше будет gpt-5, опус или даже гемини 2.5 про
для ревью кода когда как
клод на соннете чаще пишет работающий код, но оверинденирит и добавляет много слопа из ненужных ифов и т.п. гпт-5/гемини и много других в этом отношении получше
Однако работающий код со слопом - это неплохо потому что позволяет реже дергать человека, более крупные куски агент делает самостоятельно, и если инструкции сделаны, то и рефакторит, и тестирует, и отлаживает. А человек - это узкое место, так что чем реже его дергать, тем больше продуктивность. Таким образом модели/агенты пишущие код лучше, но менее железобетонно проигрывают.
Пики можно регулировать ценой как Яндекс такси/убер
Минимакс м2 лепит не работающую кашу. Gemini CLI, который пока бесплатный, намного лучше работает
Вот только они намного тупее. Т.е. требуют намного больше ручного управления, настолько, что там однозначно они снижают продуктивность.
Так рынок же не платил Роме
Нытьё и передёргивание. Всегда ПО было таким. Или забыли Windows 95, которая регулярно падала с экраном смерти и периодически её приходилось переустанавливать?
Ну а деньги выделенные на датацентры под ИИ вообще никакого отношения не имеют к десктопному софту, о котором тут речь.
Если любую идею довести до абсурда, то она превращается в тыкву.
Если кандидат выбирает из нескольких предложений, то это рынок кандидата. Если компания из нескольких кандидатов, то наоборот. Что более типично и определяет рынок. Вполне понятные и полезные понятия.
ИИ, сэр
Минус - это снижает производительность. Плюсы - сильно уменьшает прокрастинацию, может предложить что-то, о чем сам не подумал, экономит время, если платформа малознакома.
A[I, j] уже сто лет работает и используется. Что оно будет означать и как будет матрица в памяти лежать как раз в языке фиксировать не надо.
Ну и синтаксис менее важен в эпоху генерации кода ИИ, так что если и будет развитие, то в чём-то другом