Комментарии 2
Идея правильная с инженерной точки зрения. В тестах чат-ботов главное детерминированность, а не умная оценка ответа через LLM. Когда в CI появляется вторая модель-судья, система становится нестабильной и флейки начинают появляться даже без изменений в коде. Гораздо надёжнее проверять структуру диалога, состояние, слоты и конкретные сценарии через обычные assert’ы и транскрипт. LLM можно использовать отдельно для оценки качества текста, но не как часть обязательных тестов, которые решают, прошёл билд или нет.
Да, именно. Отдельно отмечу слот про «LLM для оценки качества» — он правильный, но коварный: очень соблазнительно постепенно затащить этот же judge обратно в обязательный прогон, и тогда нестабильность возвращается через заднюю дверь. Поэтому держу его физически отдельной обвязкой, не в тех же воротах, что решают судьбу билда. Спасибо за развёрнутый разбор.

Держите LLM подальше от тестов чат-бота