Claritas25 мая в 07:41

RAG в энтерпрайзе: почему демо работает, а прод нет

Средний

6 мин

8.6K

Машинное обучение * Искусственный интеллектNatural Language Processing * Анализ и проектирование систем * Базы данных *

Мнение

Комментарии 3

MasterSEED 26 мая в 05:23

Спасибо, работаю над RAG по документации и ваша статья реально помогла

chipoh 26 мая в 05:27

Подписываюсь под каждым пунктом, совсем недавно ощутил всё это на себе именно в таком порядке.

Интересно, что автор думает про графовый раг? Живая ли вообще тема или просто гламур?

Ariless 27 мая в 06:28

Знакомая проблема с evaluation - LLM-оценщик предпочитает уверенно звучащие ответы, не правильные. Решила обойти это: не оцениваю качество ответа, тестирую инварианты.

Два конкретных: (1) specialty в ответе должна быть из ALLOWED_SPECIALTIES - детерминированная проверка, не зависит от модели-оценщика; (2) одно клиническое описание в пяти перефразировках должно возвращать одну и ту же specialty - если нет, модель реагирует на формулировку, не на смысл.

Плюс distribution drift: есть baseline с ожидаемым распределением specialty по корпусу запросов, scheduled pipeline сравнивает реальное с baseline. Не ловит неправильный ответ на конкретный запрос, но ловит смещение поведения модели со временем.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий