lilia_urmazova18 фев в 07:23

Как тестировать AI-приложения — LLM метрики

Простой

4 мин

6.1K

Тестирование IT-систем * Тестирование веб-сервисов * Искусственный интеллект

Туториал

Комментарии 7

averagedigital 18 фев в 09:47

хотелось бы добавить: если вы используете локальный инференс для компании, можно смело брать облачных гигантов для валидации (ЛЛМ судья поверх ответов маленькой модели) которой для валидации прописать классы (если классификатор) сущности и тд. К тому же на время валидации не обязательно собирать ответы в том формате, в котором вы будете использовать их в проде, например: вход - выяви ключевые сущности - строгий json, можно декомпозировать ответ до отдельных задач и сравнивать только их.Так проверять значительно приятнее. Ну а если бот "с базой знаний" (я понял это как ретривал), то там специально валидировать на выходе не нужно - у вас и так косинусное расстояние рассчитывается на уровне векторной бд.

lilia_urmazova 18 фев в 16:00

Да, всё так. Спасибо за комментарий!

ToniDoni 18 фев в 11:54

Так как тестировать-то в итоге?

Напиши промпт во всех моделях... Самостоятельно оцени ответ

Это кто должен сделать? более сильная модель или человек? Как они должны считать relevance и accuracy?

lilia_urmazova 18 фев в 12:06

Если вопрос про LLM метрики и если не сильно погружаться в детали, то используем LLM-as-a-Judge - более мощная AI-модель работает в роли судьи. Конкретные примеры, как это работает, есть в третьей части курса.

ToniDoni 18 фев в 14:50

а как вы добиваетесь воспроизводимости результата тогда?

lilia_urmazova 18 фев в 15:59

Заданием четких рамок для LLM-as-a-Judge и статистически достоверным количеством прогонов.

ToniDoni 18 фев в 19:10

Вот это очень интересно кстати, надеюсь расскажете в следующих статьях сколько надо прогонов для какой-нибудь конкретной задачи.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий