Статьи / Профиль Evgen

Evgen_sha 20 фев в 04:15

RAG Testing: как не сломать retrieval

Средний

7 мин

5.6K

Тестирование IT-систем * Искусственный интеллектИнформационная безопасность *

Из песочницы

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному.

Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ.

В статье - практический гайд по тестированию обеих поверхностей:

6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70

Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи

Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo

CI/CD pipeline: автоматический quality gate при обновлении knowledge base

От pip install ragas до GitHub Actions - всё с кодом и конфигами.

RAG Testing: как не сломать retrieval

Информация

Специализация