Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы.
Структура
1. Почему RAG сложно оценивать
2. Идея DRAGOn
3. Как строится бенчмарк
4. Проверка качества QA
5. Проверка бенчмарка на RAG-системах
6. Публичный лидерборд
7. Ограничения, проблемы и практические выводы
