Комментарии 7
хотелось бы добавить: если вы используете локальный инференс для компании, можно смело брать облачных гигантов для валидации (ЛЛМ судья поверх ответов маленькой модели) которой для валидации прописать классы (если классификатор) сущности и тд. К тому же на время валидации не обязательно собирать ответы в том формате, в котором вы будете использовать их в проде, например: вход - выяви ключевые сущности - строгий json, можно декомпозировать ответ до отдельных задач и сравнивать только их.Так проверять значительно приятнее. Ну а если бот "с базой знаний" (я понял это как ретривал), то там специально валидировать на выходе не нужно - у вас и так косинусное расстояние рассчитывается на уровне векторной бд.
Так как тестировать-то в итоге?
Напиши промпт во всех моделях... Самостоятельно оцени ответ
Это кто должен сделать? более сильная модель или человек? Как они должны считать relevance и accuracy?
Если вопрос про LLM метрики и если не сильно погружаться в детали, то используем LLM-as-a-Judge - более мощная AI-модель работает в роли судьи. Конкретные примеры, как это работает, есть в третьей части курса.

Как тестировать AI-приложения — LLM метрики