Написал задачу, закрыл ноутбук: агент спланировал, поспорил с ревьюером и прислал PR в Telegram / Comments / Habr

Если LLM создаст перед изменением регресс тесты, сравнит изменение до и после...

Если для этого LLM проанализирует старый код, найдет или создаст швы по Физерсу, воткнет туда датчики для измерения (логирования хотя бы), а лучше рефакторнет код для юнит тестирования

Если для этого LLM определит сценарии E2E тестирования (хотя, откуда?) и прогонит на реальном кейсе (откуда?)

Если при постановке задачи LLM сообщит и согласует со мной "умолчания", тонкости реализации, которые я не проговорил

Если будет быстрая и гарантированно корректная петля тестирования (откуда?) без man in the loop

Если ещё много чего

То я пожалуй спокойно пойду пить кофе пока идёт правка кода

ForwardDev Apr 21 at 05:38

Регресс-тесты до/после - агент может их генерировать, если прописано в скилле. Но оракула нет: тесты будут ровно такими, какими он сам их напишет на основе твоего описания. Часть регрессий ловит, часть пропускает - не серебряная пуля, а костыль, который лучше, чем ничего.

Швы по Физерсу - у модели нет интуиции, чтобы вытаскивать зависимости из legacy и грамотно расставлять characterization-тесты на текущее поведение. Максимум, что скилл умеет форсить: "перед изменением X напиши тест на то, как оно работает сейчас".

E2E-сценарии - ваше "откуда?" ровно в точку. Ниоткуда. Либо ты их дал в постановке, либо они уже есть в проекте, либо их не будет. Handoff не изобретает бизнес-кейсы из воздуха, и это скорее фича, чем баг - выдумывать E2E он и не должен.

Согласование умолчаний - plan-polisher гоняет план через критерии качества, туда прописывается "выяви неоднозначности и уточни". Работает вероятностно: иногда задаёт правильные вопросы, иногда додумывает молча. Полного покрытия implicit requirements не будет - ни у агента, ни у джуна на первом проекте.

Быстрая петля без человека - зависит от твоего CI и тестов, а не от агента. Если у тебя suite гоняется 40 минут с флаками, никакой автопилот это не починит, он просто будет сидеть в этой петле с тем же успехом, что и ты.

Главное, что стоит развести: Human-on-the-Loop "не равно" - "ушёл и забыл". Финальный Approve на тебе, PR ты всё равно читаешь глазами. Экономится не ревью, а ручное переключение между этапами план -> имплемент -> ревью -> фикс замечаний -> снова ревью. Кофе пьёшь не пока едет критичный фикс в прод, а пока крутится рутинная фича, которую ты потом всё равно просмотришь.

Кстати, кофе тоже неплохо пить, когда итерации review -> implement агент гоняет сам, а не ты вручную пушишь его обратно в IDE после каждого замечания.

P.S. да использовал хэндофф на 4-х проектах, попивая кофеёк и играя в онлайн игры ;)

Buzzz Apr 20 at 14:25

Выглядит нормально, надо попробовать. Я лично делал подобный тул, только на сжатие контекста и распаривания между проектами. Но упёрся в прожарки кредитов, когда работаешь над тремя репами типа Бека, фронта и интеграции. Да, агенты лучше гоняют понимание и контекст но методом проб и ошибок это отличное направление и думаю надо чуть время , чтобы настоялась как вино. Но я точно погоняю.

MARDEN Apr 23 at 15:09

Использует Claude Code SDK

Выходит, работает только с Клодом. На Chatgpt не завести?

NickNah May 6 at 05:09

Работает со всеми популярными ллм, которые сейчас актуальные в топе и которые дают доступ не только по апи, cli - the best way

Написал задачу, закрыл ноутбук: агент спланировал, поспорил с ревьюером и прислал PR в Telegram

Comments 5

Articles