Обновить
8
13
Всеволод@Betensis

Пользователь

Отправить сообщение

От «вроде работает» к метрикам: внедряем бенчмарки качества для AI-агентов

Время на прочтение9 мин
Охват и читатели6.4K

Вы выкатили AI-агента в прод. Пользователи пишут: «он мне чушь ответил». Вы открываете логи, смотрите на промпт, на ответ — и не понимаете: это регрессия после вчерашней правки промпта? Проблемы после смены модели? Или просто краевой случай, который всегда был?

Знакомо? Нам — да.

Марта — AI-агент в Битрикс24. Она работает с CRM, задачами, отвечает на вопросы пользователей. Когда Марта была маленькой, мы тестировали её руками: открывали чат, писали вопрос, смотрели ответ. Но ручное тестирование не масштабируется. Один человек не может прогнать 200 сценариев после каждой правки промпта. А правки промптов происходят постоянно.

Мы строим систему бенчмарков, которая автоматически проверяет качество работы Марты. Путь от «тестируем руками» до работающей системы занял около полугода, включая изучение подходов, набивание шишек и переделки. Дальше расскажу, как мы к этому пришли. Стек у вас может быть любым, подход останется тем же.

Читать далее

Информация

В рейтинге
567-й
Зарегистрирован
Активность