runaway_llm5 апр в 16:04

Выбросил месяц ИИ-кода и начал заново: инженер Google честно рассказал о работе с Claude Code

2 мин

41K

Искусственный интеллектМашинное обучение *

+55

Комментарии 40

Tolomuco 5 апр в 16:18

слишком сложный и рутинный для побочного проекта.

Т.е. написать то-же самое за сравнимое время он мог но было лень и скушно, а с новой игрушкой поиграться было не лень и интересно. Ну, ожидаемо :)

cher11 5 апр в 17:31

Да не так это работает. Дело не в новой игрушке. Дело в интерфейсе человек-компьютер. В голове у тебя уже готовая картина практически всей системы. Но чтобы реализовать её - нужно или сидеть и долго и нудно печатать. Или же напечатать в 10 раз меньше (описав LLM, что тебе нужно), + какое-то время поверить, что получилось. Вот второе часто оказывается значительно проще начать (но не обязательно сильно быстрее закончить :)

Tolomuco 5 апр в 17:57

Вы же то-же самое написали :)

"сидеть долго и нудно", т.е. лень и скушно :)

А с новым необычно и интересно.

Пройдёт время и ему точно так-же будет лень "долго и нудно" описывать LLM что ему нужно. И там, по описанию, не на много меньше писанины в итоге, просто это новый опыт, ещё не надоело.

dmsrg399 5 апр в 21:10

Если вспомнить, что человеческая жизнь имеет временные рамки, то "лень и скучно" превращается в простое "невозможно".
К тому же, данный инженер использовал достаточно отсталый в нынешней ситуации opus. Используя 5.4 количество проблем почти гарантированно было бы кратно меньше.

Немного опыта + правильный инструмент = задача решается за 1/10 а то и за 1/100 от "ручного" времени.

fray2000 5 апр в 21:26

Упустил момент когда вдруг опус стал отсталым

Romatio 5 апр в 22:12

Через пару часов китайцы випустят еще одну модель, и отсталым станет 5.4. Потом выйдет опус 4.7. Кодекс 6.4. Квен 3.99. И так по кругу.

dmsrg399 4 часа назад

Плохо что упустили, опус 4.6 на голову ниже по качеству кода чем 5.4.

jaqjaq 5 апр в 22:59

Интересно узнать вашу область работы. В большинстве моих задач, я использую Opus 4.6 1M High и такого уровня от GPT 5.4 даже близко не могу получить, хотя хотелось бы учитывая, разницу в цене х10

TerryChan2003 6 апр в 15:15

Я на composer 2 код пишу бед не знаю.

SlavaVSLK 19 апр в 04:56

Если вы тщательно не проверяете то, что пишет composer - то возможно эти беды ложатся на ваших коллег (если они у вас есть) , или лягут позже.

devoln 8 апр в 07:18

А можно подробнее, что даёт GPT, что Opus? Я пробовал только GPT в Codex, так как не готов много платить, и получаю хороший результат.

Ещё немного сравнивал Opus 4.6 с GPT 5.4 в Windsurf на паре промптов в одной задаче. Оба одинаково сломали работающий код, но первый жрал квоту в 2 раза быстрее. Оба использовал с medium reasoning без повышенного контекста. Там задача была довольно локальная, с CSS надо было добиться нужного вида.

dmsrg399 4 часа назад

Даже не знаю что вам ответить. Опус в принципе не умеет писать нормальный бекенд и тесты. Все для чего он годится это исключительно фронт.
Что за разница х10 тоже не понял, у них разница х2.

jaqjaq 2 часа назад

Claude Max стоит $200, а ChatGPT (на такой же объем промптов) $20. Не знаю, как в веб разработке, но в Python и в C# Opus 4.7 1M обходит ChatGPT 5.4 во много много раз.

SlavaVSLK 6 апр в 04:59

Использую gpt 5.4 в основном, так как с ним уже научился "правильно" взаимодействовать. Не сказал бы что opus тупее или умнее, мне кажется к нему просто нужен свой подход

Gold141 6 апр в 06:51

Я каждый раз надеюсь на gpt в качестве альтернативы опус. Но каждый раз он меня разочаровывает. Он систематичес и игнорирует правила и прямые указания. Например я везде прописал и в чате много раз сказал изменения делать только на сервере. Он сказал окей, буду сразу на сервер пушить, поработал, а я изменений в программе не вижу. Спрашиваю а ты вообще что то менял? Он: да, локально все сделал. И так каждый раз. Он тупо игнорирует указания. Как вы с ним справляетесь?

Suor 8 апр в 05:42

Добавить проверку или детерминированную через хук, или в виде другого агента, у которого другой задачи нет, кроме как проверять, что оно на сервере

SlavaVSLK 19 апр в 04:50

Вот кстати на счёт remote изменений не знаю, у меня самописный AGENTS.md на 180 строк, без внешних ссылок и без хуков, и отдельные скилы по типу как делать фиксы, фичи, ревью, саморевью, мозговой штурм и так далее. GPT сам подхватывает нужный скил и придерживается моих правил. Но когда я тот же самый AGENTS.md положил в корень проекта и запустил в работу Claude - тот его просто проигнорировал, я думал прикол какой-то, запускал разные сессии, но нет, он его просто не читает. Наверно ему нужен именно CLAUDE.md 🤷

И Claude очень сильно злоупотребляет коммитами, если на эту тему ему ничего не сказать.

Я все таки придерживаюсь мнения, что они (gpt и Claude) требуют своего подхода к каждому.

Мне нравится как opus иногда предлогаете "свежие" решения, которых я ранее не видел от gpt, но цена за это очень высока (в плане лимитов), а вот sonet показался мне довольно тупеньким.

Но я мало времени провел с Claude, что бы дать объективную оценку

mtivkov 6 апр в 06:16

“какое-то время поверить, что получилось”.

Ну да, ну да. Это случаем не то самое время, которое превысит время на всё остальное?

gsaw 5 апр в 17:46

Вряд ли он смог бы за тоже время, без использования ИИ написать сравнимый по объему и возможностям код. Да и сам он в своей статье об этом говорит. ИИ ускоряет в разы написание кода, особенно если это очевидный и стандартный код. Это не "лень и скушно", а затратно по времени. Время самое дорогое, кмк.

akod67 6 апр в 04:45

Шапкозакидательные эстимейты самоуверенных кожаных с ошибкой в разы (в лучшем случае) наконец-то стали попадать в цель с появлением генераторов.

А вот желание промптить до лимитов - это действительно имеет место быть. Уж очень дофаминово так быстро получать результат.

Oeaoo 5 апр в 16:48

Главный вывод автора: ИИ — мощный усилитель для реализации, но опасная замена для проектирования.

Скорее, мощный усилитель глупости его кожаного оператора.

atkrv 5 апр в 19:42

А тут нет противоречия. Усилит то, что есть (или чего нет) у мешка.

Если ты шаришь — усилит разработку, а если же нет — навалит «спагетти» и потопит проект.

Zirc0n 6 апр в 12:19

Хорошее превращает в прекрасное, а плохое - в ужасное

Wesha 5 апр в 16:54

подкрепляет каждое утверждение записями из рабочего дневника (~4 000 слов),

Дневник тоже ИИ писал?

svetkis 6 апр в 10:47

100%

Dhwtj 5 апр в 17:51

~~Ещё одна попытка моделирования черного ящика по его поведению.~~ Прочитал оригинал и понял, что это археология, попытка восстановления скрытого смысла из легаси кода, подкрепленная сравнительными тестами.

Ну что же интересно. А переводчику неуд: потеряно самое интересное

JoshMil 5 апр в 23:47

Тут как с понятиями добра и зла у людей - в векторном пространстве человеческих смыслов эти два определяют смысл смыслов. А сами определены на границе взаимодействия человека с природой. И зависят от того как оно организовано…

Wesha 5 апр в 23:51

Что есть зло?
Готтентот вам ответить готов:
Это если зулус угоняет коров,
И несчастен тогда готтентот,
Потерявший рогатый свой скот.
А тогда что такое добро?
Вновь уложимся в несколько слов:
Ведь добро — угонять у зулусов коров,
И свое на них ставить тавро.
Это знает любой готтентот:
Только так — и не наоборот.

svetkis 6 апр в 05:08

За джуном на максималках стоило следить повнимательнее. Когда он начал контролировать архитектуру и следить, результат получился вменяемым. "Выкинул всё и переписал" хайп для заголовка, а по факту он просто перешёл от вайб-кодинга к нормальному Agentic Engineering.

Riketta 6 апр в 10:31

Главный вывод автора: ИИ — мощный усилитель для реализации, но опасная замена для проектирования. На уровне функции или класса у задачи обычно есть правильный ответ, и агент справляется отлично. Но архитектура, вкус в API и чувство истории проекта — то, что модели пока не дают.

Из статьи как раз таки следует что он стал использовать AI как это было изначально предложено - автокомплит и локальная агентность (как это было в Copilot и как это использует Primeagen).

И не надо обманывать ни себя, ни остальных. Весь так называемый "AgEnTiC EnGiNeErInG" это и есть вайбкодинг. Никто не способен ревьювить десятки тысяч строк кода.

svetkis 6 апр в 10:59

Автор исходной статьи использовал Claude Code с промптами для написания кода, не автокомплит. "Autocomplete on steroids" это метафора автора про степень контроля, не про инструмент. То что он делал как раз и было экспериментами с Agentic Engineering.

Riketta 6 апр в 11:00

Я уже сказал что такое ваш "Agentic Engineering", да и статья вроде понятно объясняет чем это закончилось.

Когда код, написанный LLM, с тестами от LLM и получает ревью от LLM... это и есть вайбкодинг, только чуть получше.

svetkis 6 апр в 12:25

Статья закончилась тем, что автор поменял методику работы, и дальше результат стал устраивающим его, пусть и с нюансами. А вы всегда пишете код который безупречен до последнего символа и вписывается в изначальную архитектуру как будто она изначально предусмотрела все возможные расширения и осложнения? Если бы люди писали всегда идеальный код, то агентам в качестве базы обучения досталась бы намного лучшая база чем досталась.

Riketta 6 апр в 12:28

Разница в том что Я ЗНАЮ ЧТО Я ПИШУ. И если вдруг что-то окажется не так, то я знаю где и как это чинить. И я не знаю что пишет нейроген. И никто в этом мире этого не знает, включая самого нейрогена. Смекаете?

И все самое важное, ключевое, автор написал... вручную! Вау!

svetkis 7 апр в 05:06

Просто интересно, вы же с достаточно большой кодовой базой работаете, чтобы так уверенно утверждать «знаю что пишу»? Ну тысяч сто строк хотя бы есть? Несколько проектов параллельно? Другие члены команды, которые приносят MR больше 1K строк кода?

Riketta 7 апр в 11:54

В таких случаях практически всегда есть кто-то, кто знает свою часть. Это называется "когнитивный долг". Который LLM по определению сразу и генерируют. Сразу прямиком в помойку.

Скрытый текст

It’s exactly the same complaint engineers have always had about managers who don’t understand the code asking for fanciful or impossible things. Except now you’ve become that manager.

"How I want to do this is that I want to be incharge of all decisions and direction and I want to tell you what to do. I don’t want you to plan, I don’t want you to be independent. Is that clear?"

Several times I ’lost touch’ with the codebase and there were surprising issues where I would just have to say ‘AI, please debug’, and I hated that feeling.” The fix: “I made it a habit to read code myself regularly to stay in ’touch’ with the system.
Instead of ‘change FooClass to do X’, you have to be like ‘change the thing which does Bar to do X’. And then the agent has to figure out Bar, how that maps to FooClass, sometimes it will get it wrong. Exactly the same complaint we’ve had forever with software engineering managers who don’t understand the code asking for fanciful things.

The takeaway for me is simple: AI is an incredible force multiplier for implementation, but it’s a dangerous substitute for design. It’s brilliant at giving you the right answer to a specific technical question, but it has no sense of history, taste, or how a human will actually feel using your API. If you rely on it for the “soul” of your software, you’ll just end up hitting a wall faster than you ever have before.

И т.д.

Статью что-ли попробуйте почитать. Автор буквально говорит что без полного контроля это гарантированный мусор, поэтому он не спеша делал все точечно, на уровне отдельно взятых функций и файлов, и все самостоятельно перепроверял.

А не эти ваши легендарные вайбкодерские 10-37к строк в день и "мейк но мистейкс".

Wesha 7 апр в 17:06

Я об этом раньше писал:

Не знаю, как давно Вы кодингом занимаетесь, поэтому напишу как для новичка.
Кодинг на 99% — это не «вбить текст в компьютер», это придумать в голове, что я сейчас буду вбивать.

Именно поэтому мы ненавидим, когда нас дёргают

Так вот, когда я придумываю код сам, я начинаю с того, что строю модель в голове, а потом переношу её ~~на бумагу~~ в комьютер. Поэтому я прекрасно представляю, в какой момент и при каких условиях куда пойдёт исполнение — я же только что сам это придумал!
А как Вам скажет любой программист, читать чужой код на порядок тяжелее, потому что надо идти наоборот — видя строчки на экране, пытаться на основе чужой идеи у себя в голове эту модель построить с нуля и пройтись по всем её поворотам («если A > B, то идём сюда, иначе идём туда и так далее»), после чего сделать в ней какие‑то изменения — а это гораздо сложнее. Так вот, с ИИ нам предлагают строить эту «модель чужого кода» в голове постоянно!!!

S1908 6 апр в 10:04

Так надо курсор юзать там контроля больше.

ontop 6 апр в 20:48

По моему мнению Claude ещё сыроват. В отличии, GPT 5.3Codex (5.4) всегда осторожно работает. Всё-таки уже какое поколение, Claude новый продукт.

Можно сказать я пробовал Claude давать команду почистить мусор в папках проекта. Сносил без разбора "мусор".

GPT себе такого не позволял.

Тоже и с настройками сервера. Если нужно настроить окружение только GPT5.4 с планом High. Claude Opus возможно получше Sonnet, но Opus дороже в 2 раза Sonnet, а GPT5.4 = Sonnet но качество выше чем у Opus.

realaaa 15 апр в 05:01

спасибо за пост ! прочитал оригинал, но иначе бы не нашел его, очень полезный опыт

Зарегистрируйтесь на Хабре, чтобы оставить комментарий