Обновить

Хроники Agent Driven Development трансформации .1: улучшаем agent feedback loop

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели7.6K
Всего голосов 2: ↑1 и ↓10
Комментарии3

Комментарии 3

Но в результате всё сводится не к тестам, а к подбрасыванию монетки и наджеде, что тесты что-то там покроют.
1) Почему "зелёные" тесты должны проходить? А если в коде ошибка? Неверное изначальное допущение, гарантирующее неверный результат на выходе (вы отбрасываете действительно полезные тесты).
2) Почему мутации обязательно должны приводить к непрохождению теста? Чистая лотерея, которая работает только на достаточно простых случаях.
3) Запуск "3-5" раз тоже признак лотереи, но тут пусть уж хоть так.
4) Smell Analysis - ну вообще такое себе. И пустое тело может быть нормой и тест без assert.
5) Семантическое ревью. Какзалось бы да, но по факту тоже является фильтром, которые отсетивает действительно сложные тесты (так как к любоу сложному алгоритму соверешенно всегда можно придраться и представтьь альтернативную реализацию).

Нигде нет самого главного - обяазтельного тестирования пограничных случаев. Тестируется просто "что-то".
И огромный вопрос к процезудре ревью. Очень похоже, что ревью проверяло качество кода теста, а не качество самого теста. Ревьювер проверял тесты на покрытие пограничных и сложных случаев? Похоже, что нет. А чем вы тогда вообще занимаетесь и зачем вам эти тесты?

Большинство тестов создавалось именно по таскам из уже завершенных и сданных в продакшн спринтов, с четко описанными тест кейсами и ожидаемым поведением. Поэтому изначальное допущение имеет вполне твердое основание.

Безусловно каждая из стадий не гарантирует абсолютное качество , но в совокупности дают полезные тесты.

И странный вывод почему именно граничные случаи самые важные. На практике самое важно те случае, которые встречаются вашим клиентам, которые приоритезируются продактами для попадания в спринты. На них и был сделан упор. А абстрактные граничные случаи, которые никогда не встречались именно вашим клиентам именно на конкретных ваших установках мало кому полезны.

Основной сложностью именно при массовой генерации, а не ручном создании является баланс между "качеством" и затратами на создание в разных формах ( человеко/часы на создание механизма, на ревью, машинное время выполнения, токены и тд )

А Промпты\*. md можно посмотреть? Или все только на словах?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации