Быстрее наоборот сначала принципиально всё закодить, а потом уже поправить типы. Насос всё время линтеры гонять, то это отвлечение, которое человека сбивает с потока, а агенту запихивает мусора в контекст.
Если рассматривать решение как программу, то выглядит плохо, но если рассматривать как обучение модели - просто мы пишем не в веса, а в промпт и питоний скрипт -, то это типичный ML
Затем, что те знают больше и лучше. А знание синтаксиса фигни 2.1 - это 2% того что нужно знать для вашей работы. Так что человек, знающий фигню, может знать 50% всего что нужно знать у вас, а не знающий фигню - 98%
То, что гемини больше фантазирует это известно. Есть и бенчмарки на это. Да и особо её и не тренировали против фантазий, в отличие от гпт 5+, где был большой фокус на этом
Так сервер никто и не реализовал же. Он ещё и от языка зависит. Засунули клиент разве нет? Ну и на практике, это не так важно во многих случаях. По крайней мере, агенты, в которых он давно есть, например OpenCode, какого-то огромного преимущества не имеют.
Скорее всего меньше. Так-то люди нынче до годов так 23-24 не работают, а учатся или балду пинают. Многие и потом пинают. На многих работах можно просто не бить лежачего.
У вас просто пример не типичный, поэтому и выводы странные. В типичной коммерческой разработке нижний уровень прост - условное перекладывание джсонов, а в архитектуре сложность есть. И, соответственно, агенты там лажают именно в архитектуре. Причем ошибки делают дебильные - дублирование кода, помещение кода не в тот модуль, высокая связность и т.п.
Тесты и прочее недостаточно справляться. В общем не работает это так. И именно что помощник, и именно что помогает, причём не как Джун, а совсем по-другому. ИИ - Джун ещё одна популярная, но не работающая аналогия
Так сгенерированный код точно также должен работать и точно также нужно поддерживать, поэтому и требования такие же. Это логично. Другое дело, что требования, которые сейчас предъявляются бывают излишни, я уже приводил пример с шейдером, но из больше, конечно. Но и обратных примеров можно набросать.
Аналогия, что дескать раньше были компиляторы и мы переходили на языки более высокого уровня, и на смотрим во что они там компилируются, не работает, компилятор поведение программы никак не меняет (кроме производительности отчасти), оно задаётся программой. Про ИИ такого сказать нельзя.
Нет эффективного способа проверить, что черный ящик работает правильно в общем случае. Белый ящик из-за проблемы останова тоже однозначно не валидируется, но на практике работают всякие эвристики.
В частных случаях же вполне может работать и чёрный и белый ящик. Например, на код шейдера наплевать, если он рисует то, что требуется и делает это достаточно быстро - он же никак на наружу не влияет и его действительно можно перегенерировать при надобности.
Есть разница всё время руку на пульсе держать и подпинывать или ревьюить, когда уже всё готово в целом. В первом случае, это однозначно роняет продуктивность.
Быстрее наоборот сначала принципиально всё закодить, а потом уже поправить типы. Насос всё время линтеры гонять, то это отвлечение, которое человека сбивает с потока, а агенту запихивает мусора в контекст.
Только никакого бессмертия и вообще дальнейшего развития. Люди просто превратятся в говорящих (опционально) обезьян.
Это как сказать, что нормальные игры не годны для развлечения. Только фритуплейные донатные дрочильни
Видимо, уж больно специфичная задача
Научный код одноразовый и часто типовой - всякие расчёты. Нет смысла его вылизывать. И неудивительно, что ИИ с ним хорошо справляется.
Если рассматривать решение как программу, то выглядит плохо, но если рассматривать как обучение модели - просто мы пишем не в веса, а в промпт и питоний скрипт -, то это типичный ML
Затем, что те знают больше и лучше. А знание синтаксиса фигни 2.1 - это 2% того что нужно знать для вашей работы. Так что человек, знающий фигню, может знать 50% всего что нужно знать у вас, а не знающий фигню - 98%
То, что гемини больше фантазирует это известно. Есть и бенчмарки на это. Да и особо её и не тренировали против фантазий, в отличие от гпт 5+, где был большой фокус на этом
Обычное искажение восприятия
Так сервер никто и не реализовал же. Он ещё и от языка зависит. Засунули клиент разве нет?
Ну и на практике, это не так важно во многих случаях. По крайней мере, агенты, в которых он давно есть, например OpenCode, какого-то огромного преимущества не имеют.
Скорее всего меньше. Так-то люди нынче до годов так 23-24 не работают, а учатся или балду пинают. Многие и потом пинают. На многих работах можно просто не бить лежачего.
У вас просто пример не типичный, поэтому и выводы странные. В типичной коммерческой разработке нижний уровень прост - условное перекладывание джсонов, а в архитектуре сложность есть. И, соответственно, агенты там лажают именно в архитектуре. Причем ошибки делают дебильные - дублирование кода, помещение кода не в тот модуль, высокая связность и т.п.
Просто ллм решил, что он и так всё знает, а автор не читал и не сказал ему в инетах пошукать
Тесты и прочее недостаточно справляться. В общем не работает это так. И именно что помощник, и именно что помогает, причём не как Джун, а совсем по-другому. ИИ - Джун ещё одна популярная, но не работающая аналогия
Так сгенерированный код точно также должен работать и точно также нужно поддерживать, поэтому и требования такие же. Это логично. Другое дело, что требования, которые сейчас предъявляются бывают излишни, я уже приводил пример с шейдером, но из больше, конечно. Но и обратных примеров можно набросать.
Аналогия, что дескать раньше были компиляторы и мы переходили на языки более высокого уровня, и на смотрим во что они там компилируются, не работает, компилятор поведение программы никак не меняет (кроме производительности отчасти), оно задаётся программой. Про ИИ такого сказать нельзя.
Нет эффективного способа проверить, что черный ящик работает правильно в общем случае. Белый ящик из-за проблемы останова тоже однозначно не валидируется, но на практике работают всякие эвристики.
В частных случаях же вполне может работать и чёрный и белый ящик. Например, на код шейдера наплевать, если он рисует то, что требуется и делает это достаточно быстро - он же никак на наружу не влияет и его действительно можно перегенерировать при надобности.
Всё круто, но если этим принципам следовать, то ллм будут тебя замедлять, а не ускорять.
SWE bench 53% на уровне Gemini Pro 2.5, это очень круто для небольшой модели. До 70-65 у соннета и гпт-5 далеко, конечно
Есть разница всё время руку на пульсе держать и подпинывать или ревьюить, когда уже всё готово в целом. В первом случае, это однозначно роняет продуктивность.
Я его на луа гонял.
Люди почти все свои дела делают с помощью рук, но руки людьми не повелевют.