1 ms или 90 ms вообще без разницы, сетевые задержки уже больше, а уж на "подумать" модели ещё больше. Т.е. тулза не стоит потраченного контекста и сопровождающих проблем - Клод будет пытаться, если индекс устарел и не находит чего-то, что должно
Быстрее наоборот сначала принципиально всё закодить, а потом уже поправить типы. Насос всё время линтеры гонять, то это отвлечение, которое человека сбивает с потока, а агенту запихивает мусора в контекст.
Если рассматривать решение как программу, то выглядит плохо, но если рассматривать как обучение модели - просто мы пишем не в веса, а в промпт и питоний скрипт -, то это типичный ML
Затем, что те знают больше и лучше. А знание синтаксиса фигни 2.1 - это 2% того что нужно знать для вашей работы. Так что человек, знающий фигню, может знать 50% всего что нужно знать у вас, а не знающий фигню - 98%
То, что гемини больше фантазирует это известно. Есть и бенчмарки на это. Да и особо её и не тренировали против фантазий, в отличие от гпт 5+, где был большой фокус на этом
Так сервер никто и не реализовал же. Он ещё и от языка зависит. Засунули клиент разве нет? Ну и на практике, это не так важно во многих случаях. По крайней мере, агенты, в которых он давно есть, например OpenCode, какого-то огромного преимущества не имеют.
Скорее всего меньше. Так-то люди нынче до годов так 23-24 не работают, а учатся или балду пинают. Многие и потом пинают. На многих работах можно просто не бить лежачего.
У вас просто пример не типичный, поэтому и выводы странные. В типичной коммерческой разработке нижний уровень прост - условное перекладывание джсонов, а в архитектуре сложность есть. И, соответственно, агенты там лажают именно в архитектуре. Причем ошибки делают дебильные - дублирование кода, помещение кода не в тот модуль, высокая связность и т.п.
Было же исследование. Побеждает польский, потом русский, потом английский (плюс какие-то посадочные варианты). Но разница невелика
Это не квантование, а разные модели. Как Gemini 3 Pro и Gemini 3 Flash
У опуса лучше и даже у сонета. Такое весьма редко приходится видеть.
Ну такой тест и люди не пройдут)
Слишком ограниченный набор бумаг, ничего интересного не увидим. Пока на графиках полный рандом.
1 ms или 90 ms вообще без разницы, сетевые задержки уже больше, а уж на "подумать" модели ещё больше. Т.е. тулза не стоит потраченного контекста и сопровождающих проблем - Клод будет пытаться, если индекс устарел и не находит чего-то, что должно
Такое агент сам поймает на ревью и починит. Нужно только настроить
Быстрее наоборот сначала принципиально всё закодить, а потом уже поправить типы. Насос всё время линтеры гонять, то это отвлечение, которое человека сбивает с потока, а агенту запихивает мусора в контекст.
Только никакого бессмертия и вообще дальнейшего развития. Люди просто превратятся в говорящих (опционально) обезьян.
Это как сказать, что нормальные игры не годны для развлечения. Только фритуплейные донатные дрочильни
Видимо, уж больно специфичная задача
Научный код одноразовый и часто типовой - всякие расчёты. Нет смысла его вылизывать. И неудивительно, что ИИ с ним хорошо справляется.
Если рассматривать решение как программу, то выглядит плохо, но если рассматривать как обучение модели - просто мы пишем не в веса, а в промпт и питоний скрипт -, то это типичный ML
Затем, что те знают больше и лучше. А знание синтаксиса фигни 2.1 - это 2% того что нужно знать для вашей работы. Так что человек, знающий фигню, может знать 50% всего что нужно знать у вас, а не знающий фигню - 98%
То, что гемини больше фантазирует это известно. Есть и бенчмарки на это. Да и особо её и не тренировали против фантазий, в отличие от гпт 5+, где был большой фокус на этом
Обычное искажение восприятия
Так сервер никто и не реализовал же. Он ещё и от языка зависит. Засунули клиент разве нет?
Ну и на практике, это не так важно во многих случаях. По крайней мере, агенты, в которых он давно есть, например OpenCode, какого-то огромного преимущества не имеют.
Скорее всего меньше. Так-то люди нынче до годов так 23-24 не работают, а учатся или балду пинают. Многие и потом пинают. На многих работах можно просто не бить лежачего.
У вас просто пример не типичный, поэтому и выводы странные. В типичной коммерческой разработке нижний уровень прост - условное перекладывание джсонов, а в архитектуре сложность есть. И, соответственно, агенты там лажают именно в архитектуре. Причем ошибки делают дебильные - дублирование кода, помещение кода не в тот модуль, высокая связность и т.п.
Просто ллм решил, что он и так всё знает, а автор не читал и не сказал ему в инетах пошукать