golikovichev10 июн в 22:35

Держите LLM подальше от тестов чат-бота

Простой

6 мин

11K

Python * Тестирование IT-систем * Open source *

Туториал

Комментарии 2

arkhip_cherniy 11 июн в 08:47

Идея правильная с инженерной точки зрения. В тестах чат-ботов главное детерминированность, а не умная оценка ответа через LLM. Когда в CI появляется вторая модель-судья, система становится нестабильной и флейки начинают появляться даже без изменений в коде. Гораздо надёжнее проверять структуру диалога, состояние, слоты и конкретные сценарии через обычные assert’ы и транскрипт. LLM можно использовать отдельно для оценки качества текста, но не как часть обязательных тестов, которые решают, прошёл билд или нет.

golikovichev 11 июн в 10:21

Да, именно. Отдельно отмечу слот про «LLM для оценки качества» — он правильный, но коварный: очень соблазнительно постепенно затащить этот же judge обратно в обязательный прогон, и тогда нестабильность возвращается через заднюю дверь. Поэтому держу его физически отдельной обвязкой, не в тех же воротах, что решают судьбу билда. Спасибо за развёрнутый разбор.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий