Обновить

RAG в энтерпрайзе: почему демо работает, а прод нет

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8K
Всего голосов 3: ↑3 и ↓0+3
Комментарии3

Комментарии 3

Спасибо, работаю над RAG по документации и ваша статья реально помогла

Подписываюсь под каждым пунктом, совсем недавно ощутил всё это на себе именно в таком порядке.

Интересно, что автор думает про графовый раг? Живая ли вообще тема или просто гламур?

Знакомая проблема с evaluation - LLM-оценщик предпочитает уверенно звучащие ответы, не правильные. Решила обойти это: не оцениваю качество ответа, тестирую инварианты.

Два конкретных: (1) specialty в ответе должна быть из ALLOWED_SPECIALTIES - детерминированная проверка, не зависит от модели-оценщика; (2) одно клиническое описание в пяти перефразировках должно возвращать одну и ту же specialty - если нет, модель реагирует на формулировку, не на смысл.

Плюс distribution drift: есть baseline с ожидаемым распределением specialty по корпусу запросов, scheduled pipeline сравнивает реальное с baseline. Не ловит неправильный ответ на конкретный запрос, но ловит смещение поведения модели со временем.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации