timurkhakhalev16 фев в 11:33

6 советов от практиков AI coding

Простой

5 мин

21K

Управление разработкой * Искусственный интеллектПрограммирование *

+30

Комментарии 45

M_AJ 16 фев в 12:28

Я дал плохие инструкции или кривой контекст, раз мидл-разработчик (а современные модели это уверенный мидл) не справился"

А может быть не такая уж она и мидл, если мидлы всегда справлялись, а модель не справляется?

deksden 16 фев в 12:44

А не встречались в жизни с такой ситуацией: заказали команде какую то софтину, они приносят результат - а там ерунда какая то, которая заказчику не нравится и вообще он не то имел ввиду? По мне так распространенная ситуация

Только с агентами ситуация немного сложнее - они не все переспрашивают и уточняют. В план-модах некоторых агентов не даром добавили инструмент "задать вопросы польователю".

Поэтому - да. Агенты могут делать хорошо, но пока не волшебники, и не могут угадывать. И у них не такой промптинг чтобы отказываться делать, пока им самим задача не до конца ясна. Входите в ситуацию

nikulin_krd 16 фев в 13:17

А когда в плане все указано, а он берет и делает совсем другое?

deksden 16 фев в 18:12

так бывает крайне редко, я в последнее время такого не встречал. Раньше такое бывало с небольшими локальными кодинговыми моделями

У нынешнего поколения gpt моделей (и базовых, и -codex версий) весьма неплохо со следованием инструкциям. Клод тоже нормально слушается инструкций, только ему надо их немного строже ставить и верифицировать.

Поэтому я не встречался с такими кейсами - когда "берет и делает совсем другое". Бывало что в большом плане не все делает, но в моих влоу всегда есть этап верификации на такой случай.

А у вас с каким агентом и моделью такие случаи бывали?

Maslennikovig 16 фев в 18:47

Я бы даже сказал, что на последних моделях такого не бывает почти никогда. И в 99,9% случаев, если такое происходит, проблема в кожаном.

M_AJ 16 фев в 13:21

Может быть везло, но обычно больше всего сложностей с тем, чтобы получить внятные требования от заказчика, а вот в коммуникации между инженерами уже минимум таких проблем, так как есть некая общая база, а если они что-то не поняли, то попросят выражаться яснее. И это это одна из характеристик, которые отличают мидла от джуна – мидл лучше понимает, чего именно у него просят, и какие моменты лучше сразу уточнить, если они ему непонятны.

deksden 16 фев в 18:14

Ну вот ровно как с моделями сейчас - агенты уже в план-моде спрашивают у пользователя если им что то непонятно. Кодекс бывает спорит по решениям. Так что технологии развиваются. Я оцениваю их по поыту как уверенных мидлов, хотя еще несколько месяцев назад это были скорее джуны. Но уровень gpt 5.2/opus 4.6 какую то границу перешел.

LionMuzzle 16 фев в 16:31

Агент это не просто мидл, а мидл вышедший в 1 рабочий день на вашем проекте.

deksden 16 фев в 18:16

Зависит от системы работы с контекстом на вашем проекте.
В моих проектах с меморибанком и флоу агенты себя чувствуют "в теме". Для этого используем progressive disclosure на старте сессии, и "прогрев" сессии вопросами по теме работы (я называю этот процесс праймингом).

Всем советую! Рещультаты работы будут совсем другие

LionMuzzle 16 фев в 18:36

Все так. Я тоже в нашем большом проекте сначала по 2 часа составлял промпт, чтобы грамотно объяснить суть дела, и получал качественный результат. А потом появились rules)) и стало намного лучше.

nikulin_krd 16 фев в 13:16

Такое впечатление, что статью написал не разработчик, а очередной «вайб-кодер». Во-первых, LLM это немного не ИИ. Во-вторых, текущие LLM - это джуны, а в некоторых случаях весьма дремучие джуны. В-третьих, LLM подвержены галлюцинациям, самодеятельности, забыванию контекста и игнорированию плана, вне зависимости от уровня подготовки задания. Opus 4.6 сейчас стал +- походить на какого-нибудь свежего мидла

timurkhakhalev 16 фев в 13:29

>Во-первых, LLM это немного не ИИ

А тогда что такое LLM и что такое ИИ?))

>Во-вторых, текущие LLM - это джуны, а в некоторых случаях весьма дремучие джуны

Ну у кого как, но на мой взгляд, когда нечто довольно самостоятельно и может выполнить задачу по плану, то это вполне хороший миддл

> В-третьих, LLM подвержены галлюцинациям, самодеятельности, забыванию контекста и игнорированию плана, вне зависимости от уровня подготовки задания

Ага, работу с контекстом никто не отменял, но с современными моделями gpt этого требуется меньше, чем с моделями claude, даже с opus 4.6

Enuriru 16 фев в 13:58

разумеется это вайбкодинг :)

профессионал рассказал бы про belief state, позиционные кодировки, семантические разметки, автогенерацию многоуровневых доков, семантические графы приложений, да хотя бы про MCP-доступ к документациям фреймворков. В общем все то что позволяет агенту реально автономно работать с проектами из сотен файлов и сотен тысяч строк кода не теряя контекст.

timurkhakhalev 16 фев в 14:13

Ничего из этого не используется в реальной практике и в большинстве своем несёт ненужный оверхед.

Если человек разберется с базой, о которой написано в статье, то он может добавлять все эти модные слова по мере необходимости

deksden 16 фев в 18:25

Вы описываете какой то вымышленный флоу

Позиционные кодировки используют модели в работе с контекстом внутри, это не технология пользвоательского уровня.
Семантические графы - есть любители, но это один из подходов. Если вы не финтех со строгим регулированием и требованиями полной трассируемости кода и RLM, то смысла особого в графе нет.
MCP доступ к документации - возможно context7 можно упомянуть. Но его заменяет в грамотном флоу веб поиск в случае вопросов. Либо нормальная модель со свежим knowledge cutoff. К тому же отрасль движется от MCP к библиотекам Skills и обвязке CLI в скиллы. Так что это не для начинающих - это для продолжающих

И проект из сотен файлов и сотен тысяч строк кода - это не уровень начинающего. Не путайте целевую аудиторию.

deksden 16 фев в 18:20

Современное поколение моделей - начиная с gpt 5.2 и opus 4.5 - уже ни разу не джуны. В нормальном флоу и с нормальной подготовкой проекта к ИИ разработке все работает весьма толково.
Проблем с галлюцинациями в текущем поколении моделей на распространенных стеках нет от слова совсем.
Самодеятельность - зависит от качества промптинга. С гпт все просто, а вот для Опуса требуется некоторый навык и понимание его особенностей.
Забывание контекста в пределах свежей сесси до компакта отсутствует, а до компакта доводить ее непрофессионально.
План современными моделями не игнорируется

Ваше мнение построено или на устаревшей информации, или на работе со слабыми моделями. Текущий фронтир такими особенностями "давно" не обладает (уже пару релизов). И опус 4.6 - не вершина в кодинге.

nikulin_krd 17 фев в 07:05

То что вам в ваших задачах не попадались галлюцинации современных моделей, не означает что их нет. Это же как «ошибка выжившего»

deksden 21 фев в 16:16

Расскажите пожалуйста поконкретнее - какого рода галлюцинации вы встречали? Оч интересно

Какая модель, упряжка, стек, проект размером, наличие ИИ подготовки/меморибанка/readiness rating?

Tzimie 16 фев в 15:55

Вычитывать тысячи строк кода за AI утомительно и опасно — глаз "замыливается".

Ой, все

vpgromov 16 фев в 16:29

Зачем вычитывать тысячи строк кода, когда можно открыть соседнее окно консоли и попросить его же сделать ревью)

deksden 16 фев в 18:28

Не только ревью

Если говорить о флоу, то сначала делаем чеки (lint/typecheck/build/test:unit/test:integration/test:e2e), потом - верификацию (сверим план с фактом), а потом - можно и ревью

Я в канале как раз последний эвал делал на ревью кодовой базы раными моделями. Тестили свежих китов против фронтира

Maslennikovig 16 фев в 19:15

А ещё лучше модель другого вендора...

deksden 16 фев в 18:26

А вы читаете и контролируете агентов?)

Astrowalk 17 фев в 07:36

Это вайбкодинг. Признак, по которому его отличают от более здоровых практик – принципиальный отказ от человеческого ревью, просмотра специалистом сгенерированного кода.

Dhwtj 17 фев в 08:19

Точно.

Приемка: Тесты вместо Code Review

Тесты фигня. Даже golden tests фигня. Только отвлекают и рассеивают сознание.

Гораздо лучше делать правила, проверяемые компилятором.

ilyes-garif 16 фев в 19:40

Если агент ошибается, это почти всегда проблема процесса:
Контекст: не собран, противоречив или содержит мусор.
Инструкции: их мало, они не директивные, слишком абстрактные или, наоборот, перегруженные деталями.
Критерии: нет автотестов, вы не объяснили, что такое "хороший результат".

Если вот это все мешает мидлу решить задачу, то это не мидл ) мидл приходит с правильными вопросами

AndPronin 16 фев в 22:26

Быть может, стоит по TDD тогда писать, раз все равно надо про тесты думать?

Astrowalk 17 фев в 07:38

Вот да. Тут пропагандируют генерировать агентами и код, и тесты и ревью. Точка контроля размывается. Ну, может, и так можно сделать надёжную систему, посмотрим.

AndPronin 17 фев в 08:09

Интересно, сколько это в итоге будет обходиться. Магия вне Хогвартся не бесплатна

Astrowalk 17 фев в 08:22

Как раз сегодня был ответ: $118 за один запрос ☺
https://habr.com/ru/news/1000302/

deksden 21 фев в 16:44

Наверное не надо работать в инструментах, которые не дают нормальные подписки (для фиксации цены).
Подписки от openai / anthropic решают вопрос.

Nic50 17 фев в 05:25

Круто! Но если нет денег на агента, можно воспользоваться схемой уменьшения контекста — это очень хорошо работает. Просто пишем задание, он его делает, а потом делаем прогрев из прошлой сессии или калибруем его прямо в чате и просим переписать задание под систему. Иногда можно обойтись и без этого, если написанная функция имеет достаточно большую автономию.Еще я заметил, что машина часто врет, говоря, что все готово. Если автотест написан ею же, она может сгенерировать код, который будет проходить только этот тест — так сказать, сделает именно то, что попросили. Поэтому, если есть возможность протестировать все вручную, это будет идеальным планом. Однако тут уже все индивидуально.Я бы сказал, что самое важное в работе с ИИ — точно понять, что должно быть в конце и как к этому нужно прийти. После этого это можно описать максимально декларативно и подправить углы. Если со второй попытки ничего не получится, то придется смириться и работать самостоятельно — так будет быстрее.

deksden 21 фев в 16:49

в целом - норм, но есть замечания

делаем прогрев из прошлой сессии
Это как? продолжить прошлую сессию? неэффективно - она же на прошлую задачу потрачена

машина часто врет, говоря, что все готово
Это отдельные модели склонны, в частности Клод - но там немного не так линейно. Он "срезает углы", а не впрямую врет. Но у openai моделей нет таких вопросов.

Точно понять, что должно быть в конце
Да - но не надо придумывать как к этому придти - это задача агента. Нужно придумать как сделать тест, чтобы проверить что пришли. И с тестом агент прийдет

придется смириться и работать самостоятельно
Не стоит - лучше разобраться что вы делаете не так! Это эффективнее. Любая неудача или сложность - повод повысить свой уровень

anshdo 17 фев в 05:51

У меня по прочтении всего этого возникает один вопрос. А не быстрее будет самому написать код, чем вот это всё? (в моей практике ОБЫЧНО получается быстрее).

AnyKey80lvl 17 фев в 06:07

Какой-нибудь скрипт интеграции средней сложности любая современная модель напишет Вам за минуту. А Вы - нет ) Причем он у нее заработает с первого раза.

anshdo 17 фев в 07:27

Вот только чтобы она его за минуту написала, мне придется сначала два дна собирать правильный контекст, писать вИдение, планы, правила, тесты ... а потом да, она за минуту напишет ... может быть.

ThisMan 19 фев в 09:01

Если реализация нужна на незнакомом языке или тебе совсем не хочется думать о всяких нюансах, которые базовые, просто тебе совсем лень, то LLM подойдет идеально

Вот надо тебе баш скрипт написать, ты конечно можешь пойти вспоминать или изучать команды, синтаксис и так далее, а можешь попросить модельку, она с башем хорошо работает. А если ты не можешь сформулировать к ней запрос, то сам то как собрался писать?

cdriper 17 фев в 11:07

так все такого рода писули публикуют те, кто вообще ничего в программировании не понимает. и принципиально не хочет учиться.

поэтому ужасный недоджуновский код LLM для них это код мидлов )

nighthtr 18 фев в 23:29

Ты бы видел что из головы живых мидлов рождается.. уж лучше LLM с небольшим тюнингом, ей хотя бы объяснить на примере можно, что ты от нее хочешь. А до тех и с десятого раза не доходит.. 🙃

deksden 21 фев в 16:51

Смелый тейк - определяю уровень знаний по интернету

deksden 21 фев в 16:50

Нет.

Разница в скорости гиганская. Среднего размера системы пишутся за недели, а не месяцы

DoctorCat92 17 фев в 11:28

Данная статья не решает главные проблемы, когда у модели заканчивается контекст она перестает помнить старые фичи и при вводе новых постоянно что-то ломает или удаляет, из-за чего на крупном проекте кол-во ошибок от модели растет диаметрально.

А все перечисленное я использую и да оно работает .

deksden 21 фев в 16:54

Вы невнимательно прочитали. Именно пункт 2 в статье про прогрев и подготовку контекста решает ваши вопросы. Агент должен работать на подготовленном контексте. Да, подготовка "вручную" более хлопотна и требует некоторого навыка - но ничего ракетнокосмического. Просто гоняете агента по системе "сверху вниз", он ее изучает. Потом гоняете подробнее про подсистему с которой работаете/ее зависимостям. Если агент норм познакомился с подсистемой, он не будет делать никакого дублирующего кода.

Конечно, меморибанк решает эти задачи системнее.

И этап проектирвоания - это в том числе проработка интеграции доработок в систему. Не даром в агентах появляются субагенты-исследователи. Как раз для изучения вопросов, например для интеграции.

FoxProFlow 17 фев в 15:27

Очень узнаваемо: “агент пишет код” - это не фича, это смена роли инженера на организатора процесса. Самая сильная мысль тут - про тесты как критерий приемки. Я бы её усилил ещё одной штукой: контур доказательства (артефакт - проверки - короткий отчёт “что сделано и чем подтверждено”). Вопрос: вы пробовали жёстко ограничивать “инициативу” агента (например, bounded loop: N итераций - стоп - эскалация человеку с фактами), чтобы он не превращал задачу в вечный рефакторинг?

deksden 21 фев в 16:56

Вы уже затрагиваете продвинутую тему - это флоу разработки

В целом все верно написали

Для своих флоу у меня стандартный паттерн - 2 цикла агентного фикса после проблемы, если не получается, то эскалация до пользователя. Это в оркестраторе при процессах/флоу планирования, реализации, верификации или ревью.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий