Комментарии 3
Спасибо, работаю над RAG по документации и ваша статья реально помогла
Подписываюсь под каждым пунктом, совсем недавно ощутил всё это на себе именно в таком порядке.
Интересно, что автор думает про графовый раг? Живая ли вообще тема или просто гламур?
Знакомая проблема с evaluation - LLM-оценщик предпочитает уверенно звучащие ответы, не правильные. Решила обойти это: не оцениваю качество ответа, тестирую инварианты.
Два конкретных: (1) specialty в ответе должна быть из ALLOWED_SPECIALTIES - детерминированная проверка, не зависит от модели-оценщика; (2) одно клиническое описание в пяти перефразировках должно возвращать одну и ту же specialty - если нет, модель реагирует на формулировку, не на смысл.
Плюс distribution drift: есть baseline с ожидаемым распределением specialty по корпусу запросов, scheduled pipeline сравнивает реальное с baseline. Не ловит неправильный ответ на конкретный запрос, но ловит смещение поведения модели со временем.

RAG в энтерпрайзе: почему демо работает, а прод нет