@DmitriiFilippov7 авг в 05:00

AI Software Engineering: От хаоса Vibe Coding к системной разработке с AI-агентами

Средний

16 мин

Программирование * Python *

Обзор

+16

Комментарии 41

@SiGGthror 7 авг в 05:09

Хайп LLM проходит и лично у меня до сих пор вопрос в их возможности быть полезными на реальных проектах с большой кодовой базой. Тут на хабре была статья про исследования, что они могут даже замедлять работу инженеров.

@deksden 7 авг в 06:40

Исследование проводили, да.

Там получились довольно очевидные результаты: если людям дать инструмент, который они не особо знают (или совсем не знают), и начать применять его для задач, которые не очень подготовленные для инструмента, то ничего хорошего не выйдет.

AI SWE требует методики прежде всего, и определённой подготовки проекта. С ними работает весьма прилично. Лично имею вполне положительный опыт на средних проектах около 100k loc на мейнстримовых языках (ts/python).

@SiGGthror 7 авг в 06:44

Хотелось бы какие-то цифры увидеть, а не просто "весьма прилично". Это крайне субъективная оценка и в исследованиях как раз показательно, что субъективное сокращение времени выполнения задач при использовании LLM легко превращается в объективное увеличение.

@deksden 7 авг в 06:49

Ну - вот такие цифры для небольшого greenfield проекта на ts с 35k loc + 15k loc доков.

Я делал оценку трудоёмкости, когда СС взял всю историю коммитов в репозитории, считал сколько строк кода, для каких файлов добавлено, изменено или удалено, смотрел сами файлы. В итоге он делал оценку трудоёмкости написания этого кода/документации "руками", если бы это писал человек уровня Senjor Developer. Получилась оценка в 5800-6300 человеко-часов.

Потом сделал такой отчёт: СС смотрел фактические даты и время создания файлов, время создания коммитов - и считал фактически потраченное время. Оказалось около 125 часов.

Итого х50 получается к "ручному" написанию.

p.s. Да, тут надо учесть что Greenfield, для brownfield нужно будет кучу времени на переработку и документирование потратить. Плюс язык и платформа знакомые ИИ, плюс следование всем методикам изначально. Так что можно оценить это как "оптимистичный" коэффициент в приближённых к идеальным условиях

@SiGGthror 7 авг в 06:51

Я верно понял что оценка эффективности LLM проводилась самой LLM?

@deksden 7 авг в 06:52

ну - я ж не руками все цифры считать буду))

ну и не претендую на академическое исследование - иначе бы мы с вами статью на arxive обсуждали бы

в этом смысле - да, "оценка эффективности использования компьютера напечатана на компьютере". На бересте вроде бы неуместно

@Buchachalo 8 авг в 11:52

Тупейший вопрос. А учитывался рабочий график и выходные при подсчете?

@deksden 8 авг в 12:27

Когда считаем человеком часы, мы просто делаем оценку трудоемкости а часах работы.

А как вы эти человеко-часв будете вкладывать, с каким графиком - 8часов/5 дней, 12 часов / 7 дней - кже другой вопрос.

@blackyblack 7 авг в 12:57

Штука невероятно полезная, в том числе и на больших проектах, и на всяких экзотических языках. Да, в плохо организованных, плохо типизированных проектах, работает хуже. Но все равно супер полезно.

@deksden 7 авг в 15:22

Я бы сказал что структурированная память - первый краеугольный камень ai swe. Но не единственный!

Дальше добавляем процессы, дальше добавляем прослеживаемость - и уже похоже на технологию.

@blackyblack 7 авг в 16:28

ИИ ассистенты уже похожи на технологию, потому что они уже позволяют эффективно выполнять задачи и дают (ну лично для меня) экономический эффект. Структурированная память больше похожа на какое-то управление проектом, но лично в моих проектах просто нет такого потока задач, чтобы это было актуально.

@deksden 8 авг в 12:30

Структурированная память нужна чтобы сохранить консистентность проекта. Это не совсем связано с потоком задач!

Если агент прочитал Мемори банк и собрал себе правильный контекст под задачу - то даже вашу одну редкую задачу он сделает с более высоким качеством!

Иначе вам прийдется полагаться или на разработчика агента, которым вы работаете (условный курсор), или на агентность и инициативность модели.

@blackyblack 8 авг в 13:30

В моих задачах порядка 90% hit rate стандартного Codex агента. На плохо сформулированных задачах можно иногда запускать несколько агентов одновременно, чтобы сравнить решения. За оставшиеся 10% можно было бы побороться с помощью вашей идеи, но проще подождать, пока сделают готовый сетап.

@milkyway044 7 авг в 05:33

Для технических деталей (паттерны, стандарты кодирования) лучшим источником является сам код. Хорошо написанный, самодокументированный код с комментариями в нужных местах часто лучше любого отдельного гайда.

Вместо десятка .md файлов (tech_stack.md, patterns/, guides/, workflows/) у меня есть один мощный README.md для бизнес-контекста и сам код для технического. Этого более чем достаточно для большинства проектов.

README.md (бизнес-логика, флоу) + Код (реализация, техдетали) = Полный контекст.

@Ilya_JOATMON 7 авг в 06:01

Вот с чем не раз сталкивался - АПИ "документировано", но часто нет достаточных описаний на параметры функций (разрешенный набор, нужно/не нужно освобождать (и как это делать) и т.п.) и самое главное - нет примеров, как с помощью этого апи что-то делать.

@deksden 7 авг в 06:44

Верно.

поэтому у меня в меморибанке есть папка architecture/ где описано "что сделано" и папка guides/ где описано "детали и как этим пользоваться"

В итоге собирается довольно качественный контекст

@deksden 7 авг в 06:43

Действительно, код с докстрингами/jsdoc сам себя документирует. но ему в дополнение стоит добавить более высокоуровневые концепции - паттерны, принятые в проекте, схему подсистем, схему взаимодействия разных частей, и прочая информация более высокого уровня.

Разбивать контекст лучше тем, что тогда его легче собрать под каждую конкретную задачу для агента, не загромождая ненужными ему сведениями. Например, в момент написании кода модуля агенту не нужно знать о системе тестов или gitflow проекта.

@milkyway044 7 авг в 12:09

README.md (ЗАЧЕМ) + CODE_GUIDE.md (КАК ИСПОЛЬЗОВАТЬ) + Код (КАК РЕАЛИЗОВАНО) = Полный контекст v2

CODE_GUIDE.md (или ARCHITECTURE.md)

Это один дополнительный файл в корне проекта. Не папка, не сложная структура, а просто один документ.

Его цель: Быть тем самым связующим звеном между бизнес-логикой из README и кодом. Он отвечает на вопросы "Как?" и "Почему?" на более высоком уровне, чем комментарии в коде.

80% результата при 20% усилий.

@DmitriiFilippov 7 авг в 13:32

Мне кажется вы не дооцениваете workflow где мы прописываем инструкции для каких-то дейтсвий: исправение бага, новая фича, или других задач.

Например субагент, который после завершения задачи запускается и проверяет по некоторому своему workflow всё ли агент сделал. Сделал ли новую ветку, закомиттел, добавил ли описание в документацию, обновил ли канбан-доску и т.д. И под каждую специфичную задачу или требование можно реализовывать свой workflow.

@deksden 7 авг в 15:15

Для небольших проектов сработает и один файл, вы правы: меньше думать над структурированием и проще сопровождать/пишете все в один файл.

Но с ростом проекта архитектура не масштабируется. Пример: фуллстек приложение next js. Для любых действий с самим api routes в контексте агента избыточны все сведения об архитектуре фронтэнда или playwright тестов. Если у вас все прописано в одном файле, оптимальный контекст собрать не получится. А с какого то размера файлов и проекта это будет представлять проблему: у клода контекст всего 200к токенов.

Такая проблема есть, например, в дефолтном сетапе Kiro.

Поэтому принцип декомпозиции работает очень просто: собрать контекст из разных файлов агентом довольно просто, а разобрать один большой файл при необходимости оптимизации контекста - никак.

@timurkhakhalev 7 авг в 06:51

Очень насыщенная статья, спасибо!

@GolosCD 7 авг в 07:53

Хорошая статья, лайк и подписка.
Было бы фантастично, если бы вы добавили ссылку на git, где вот все уже организовано как показано в статье. Что бы можно было на примере пробовать делать свое.

@Artem-B 7 авг в 08:11

Но, «чит-код» с полным контекстом не будет работать вечно, когда проект вырастет больше чем 1 млн.токенов, и не будет вмещаться в контекст Gemini 2.5 Pro, мы естественным образом перейдем к более «навороченным» процессам планирования.

На самом интересном месте остановились.

Все-таки проект, умещающийся в окно gemini - это не совсем репрезентативный пример промышленной разработки.

Также кажется по опыту, что вот эти сложные фреймворки с большим объёмом требований и перекрёстными ссылками между документами не очень хорошо работают, LLM без указаний все равно редко будет пользоваться этими ссылками, а часть из большого объёма информации явно потонет в контексте.

@DmitriiFilippov 7 авг в 08:20

Это правда, тут придется под каждый проект свой pipeline разрабатывать для создания ТЗ. Можно итеративно отдавать в Gemini только те модули, которые потенциально необходимы в разработке для конкретной задаче, потом суммировать и получать общую картину.

@Denwer_py 7 авг в 14:27

а как описываете задание для Gemini если не секрет? Попробовал пару раз, но пока что много глюков

@deksden 7 авг в 15:19

Пакуете репомиксом полный проект, чтобы и спеки, и код, и тесты были в репо.

Потом обычным образом общаетесь в чате: спрашиваете как посоветует реализовать такую то фичу, с вариантами. Проанализировать что то. Объяснить как работает и устроено. Оценить конструкцию какой то подсистемы.

Пока проект влезает в Гемини - такая деятельность - одно удовольствие: не нужно индексировать, нет агентских поисков, все оч быстро в режиме вопрос-ответ.

Какое задание вам сложно прописать?

@TrueScaffold 7 авг в 18:46

"На ИИ-топливе": очень неплохой художественный перевод английской контрукции "AI-fueled", мне понравился. В наше время таким уже не заморачиваются, а тупо пишут кириллицей английские слова.

@muhachev 7 авг в 19:04

AI-fueled - не вкусно на кирилице выглядит. Но я бы на русском сказал на ИИ-тяге )) в размер лучше ложится. Ну или вообще - на нейротяге.

@muhachev 7 авг в 19:10

Я бы добавил репозиторий промптов. Ибо наверное в итоге листинг отлаженных промтпов и должен стать основным воспроизводимым артефактом результата разработки систем на нейротяге.

@deksden 8 авг в 12:47

При разработки агентских систем действительно основным результатом работы является тот или иной вид промпта - инструкции ИИ агенту, кастомные команды, и прочая документация в мемори банке являются промптам.

А при использовании таких систем команды довольно короткие - запуск того или иного процесса. Беседы случаются при разговорах о возможностях системы, или про обратную связь от её использования.

@muhachev 7 авг в 21:58

Ну и ссылку оригинал Open SWE добавить было бы неплохо, а то такое впечатление, что вы сами всё придумали.

@deksden 8 авг в 12:50

Не совсем понятно с чего вы решили что Open SWE какое то отношение имеет к нашей теме. Кроме общих буковок и концепции агенты + документация - особых пересечений нету.
А кто выдумал в статье написано, со ссылкой:
> Memory Bank - это концепция, представленная в виде официальной инструкции для Cline
Поэтому не совсем понятный тезис

@xaskixaski 11 авг в 05:43

Привет! хорошо описано - я к этому процессу пришел тоже. Только вот один вопрос - как клауди агент будет выдерживать из проекта нужные ему для работы файлы? Ведь у него маленькое окно, а чтобы выдернуть файл нужно загрузить целый проект

@DmitriiFilippov 12 авг в 21:44

Решается двумя способами:
1) С помощью ТЗ - мы прям в тз прописываем путь к файлам, где какие компоненты лежат и как их использовать, в статье в примере это есть блок с ### Ключевые компоненты для реализации. Базовые схемы, такие как BatchCommandRequest, уже реализованы в core/src/schemas.py

2) Это создать в memory_bank файл с навигацией по архитектуре проекта. Прям указывать пути к файлам с описанием, что там лежит и зачем это можно использовать. Такую спеку по проекту так же можно сделать через Gemini

@tysonite 11 авг в 12:27

Хорошая статья. Было бы очень интересно прочитать, как эта методология может адаптироваться для команды из нескольких человек.

@DmitriiFilippov 12 авг в 21:50

У меня пока проблема в плоскости заставить перейти на один инструмент, сейчас команда на проекте пользуется разными AI решениями. К консенсусу еще не пришли.

Эта методология мне кажется гибка и масштабируема, главное все должны ей придерждиваться и выработать внутренние правила работы с ней. Проблемы в самой методологии пока не вижу.

@aks2dio 15 авг в 01:47

Спасибо за полезный и интересный контент.

В разделе 2.3 последнее предложение обрывается:
"при необходимости - создает или обновляет гайд в guides/ с примерами использования или ..."

@exorciste 21 авг в 06:28

Очень годный материал! Благодарю
Уже какую неделю пытаюсь заставить Claude перестать тупить, а тут прям по полочкам
Крайне интересна тема субагентов, пока пересмотрел только кучу видео на эту тему, но практическая реализация все еще ускользает от меня :)

@deksden 8 сен в 12:14

Кое что я писал в своём тг-канале! Посмотри, думаю будет полезно

@nicelight_nsk 19 сен в 09:27

У Cursor хорошо работают встроенные агенты, они там заморочились над внутренней rag, правильно анализирующей кодовую базу.

А ещё к нему сделали достаточно мощный memory bank, куда более серьезный чем вы предлагаете. https://github.com/vanzan01/cursor-memory-bank у него обширные схемы анализа поведения перед тем как принимать решения к действию, интеграция с нативными тулами агентаов, включая оркестратора, автоматизация пошаговой работы, отличный анализ для составления тасков и подтасков. Если приправить его выдержанными rules-ами, может часами работать практически автономно. я просто пил чай и периодически его поправлял, если вдруг начнет не в ту степь идти. Конечно это не полная автоматизация но уже зачатки цепи выверенных заранее прописанных действий. Пользовался им всего месяц и теперь страдаю без него)(я нищеброд) пока что сижу на roo code for VSC. Есть много имплементаций мембанков, но этот по моему один из лучших. Пытался ег оптимизировать под рукод, он все равно работал с костылями. Наверное потому что рукод не умеет в инструменты агента вызванные из инструкций мембанка. размышляю не вернуться ли в курсор)

@deksden 20 сен в 06:45

Это развитие концепции Мемори банка довольно известное и популярное. В репозитории есть отдельный очень полезный раздел, как автор оптимизировал процессы - очень полезное чтение.

Хотелось бы отметить, что сам меморибанк довольно базовый по функциям именно как меморибанк: структура хранения информации в нем без наворотов.

Мощным эту реализацию делают очень хорошо проработанные процессы на базе custom modes курсора. Тут ничего не скажу - действительно хорошая реализация реального SDD (Spec driven development). Интересно смотреть над развитием проекта но уже для СС.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий