Обновить

Комментарии 7

хотелось бы добавить: если вы используете локальный инференс для компании, можно смело брать облачных гигантов для валидации (ЛЛМ судья поверх ответов маленькой модели) которой для валидации прописать классы (если классификатор) сущности и тд. К тому же на время валидации не обязательно собирать ответы в том формате, в котором вы будете использовать их в проде, например: вход - выяви ключевые сущности - строгий json, можно декомпозировать ответ до отдельных задач и сравнивать только их.Так проверять значительно приятнее. Ну а если бот "с базой знаний" (я понял это как ретривал), то там специально валидировать на выходе не нужно - у вас и так косинусное расстояние рассчитывается на уровне векторной бд.

Да, всё так. Спасибо за комментарий!

Так как тестировать-то в итоге?

Напиши промпт во всех моделях... Самостоятельно оцени ответ

Это кто должен сделать? более сильная модель или человек? Как они должны считать relevance и accuracy?

Если вопрос про LLM метрики и если не сильно погружаться в детали, то используем LLM-as-a-Judge - более мощная AI-модель работает в роли судьи. Конкретные примеры, как это работает, есть в третьей части курса.

а как вы добиваетесь воспроизводимости результата тогда?

Заданием четких рамок для LLM-as-a-Judge и статистически достоверным количеством прогонов.

Вот это очень интересно кстати, надеюсь расскажете в следующих статьях сколько надо прогонов для какой-нибудь конкретной задачи.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации