Comments 5
Если LLM создаст перед изменением регресс тесты, сравнит изменение до и после...
Если для этого LLM проанализирует старый код, найдет или создаст швы по Физерсу, воткнет туда датчики для измерения (логирования хотя бы), а лучше рефакторнет код для юнит тестирования
Если для этого LLM определит сценарии E2E тестирования (хотя, откуда?) и прогонит на реальном кейсе (откуда?)
Если при постановке задачи LLM сообщит и согласует со мной "умолчания", тонкости реализации, которые я не проговорил
Если будет быстрая и гарантированно корректная петля тестирования (откуда?) без man in the loop
Если ещё много чего
То я пожалуй спокойно пойду пить кофе пока идёт правка кода
Регресс-тесты до/после - агент может их генерировать, если прописано в скилле. Но оракула нет: тесты будут ровно такими, какими он сам их напишет на основе твоего описания. Часть регрессий ловит, часть пропускает - не серебряная пуля, а костыль, который лучше, чем ничего.
Швы по Физерсу - у модели нет интуиции, чтобы вытаскивать зависимости из legacy и грамотно расставлять characterization-тесты на текущее поведение. Максимум, что скилл умеет форсить: "перед изменением X напиши тест на то, как оно работает сейчас".
E2E-сценарии - ваше "откуда?" ровно в точку. Ниоткуда. Либо ты их дал в постановке, либо они уже есть в проекте, либо их не будет. Handoff не изобретает бизнес-кейсы из воздуха, и это скорее фича, чем баг - выдумывать E2E он и не должен.
Согласование умолчаний - plan-polisher гоняет план через критерии качества, туда прописывается "выяви неоднозначности и уточни". Работает вероятностно: иногда задаёт правильные вопросы, иногда додумывает молча. Полного покрытия implicit requirements не будет - ни у агента, ни у джуна на первом проекте.
Быстрая петля без человека - зависит от твоего CI и тестов, а не от агента. Если у тебя suite гоняется 40 минут с флаками, никакой автопилот это не починит, он просто будет сидеть в этой петле с тем же успехом, что и ты.
Главное, что стоит развести: Human-on-the-Loop "не равно" - "ушёл и забыл". Финальный Approve на тебе, PR ты всё равно читаешь глазами. Экономится не ревью, а ручное переключение между этапами план -> имплемент -> ревью -> фикс замечаний -> снова ревью. Кофе пьёшь не пока едет критичный фикс в прод, а пока крутится рутинная фича, которую ты потом всё равно просмотришь.
Кстати, кофе тоже неплохо пить, когда итерации review -> implement агент гоняет сам, а не ты вручную пушишь его обратно в IDE после каждого замечания.
P.S. да использовал хэндофф на 4-х проектах, попивая кофеёк и играя в онлайн игры ;)
Выглядит нормально, надо попробовать. Я лично делал подобный тул, только на сжатие контекста и распаривания между проектами. Но упёрся в прожарки кредитов, когда работаешь над тремя репами типа Бека, фронта и интеграции. Да, агенты лучше гоняют понимание и контекст но методом проб и ошибок это отличное направление и думаю надо чуть время , чтобы настоялась как вино. Но я точно погоняю.
Использует Claude Code SDK
Выходит, работает только с Клодом. На Chatgpt не завести?
Написал задачу, закрыл ноутбук: агент спланировал, поспорил с ревьюером и прислал PR в Telegram