Rummar Jan 23 at 07:16

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Hard

12 min

Artificial IntelligenceSearch engines *

Review

+13

Comments 5

Munafiqun Jan 23 at 09:41

Извиняются за мой английский, но this really pulls the rag from under deep learning.

dmiche Jan 23 at 10:01

Статья интересная, спасибо!

В то же время, попытку высадить эмбеддер специальным датасетом можно сравнить с попыткой высадить grep сжатым архивом: grep ищет слова (подстроки), а в архиве только буквы вперемежку.

Так и в их исследовании: эмбеддер ищет смыслы и способен справляться даже тогда, когда пересекающихся слов вообще нет, а bm25 ищет именно на комбинациях слов. Это два разных уровня. Если посмотреть на их тестовый датасет в таком ракурсе, то мы обнаружим, что там вообще всего примерно один смысл: что кому-то что-то нравится. Неудивительно, что для эмбеддера строки по смыслу слабо отличаются. И никакие мультивекторы тут не помогут.

В то же время, этот пример очень хорошо иллюстрирует, что в практике RAG - это не серебряная пуля и что нужно оценивать состав данных, а затем комбинировать инструменты.

Есть смысл избегать применения RAG практически везде, где легко справляются алгоритмы. Лёгкость алгоритмической обработки материала - прямое свидетельство конечности и относительной узости смыслового корпуса входных данных.

Bardakan Jan 23 at 10:06

Но фокус в том, как устроен датасет. В нём 50 тысяч документов, 1000 запросов, причём каждый запрос имеет ровно 2 релевантных документа.

подождите, но если у вас 50 тыс документов и у вас поиск по тексту в них, то разве нейросети разве не нужно открыть каждый и прочитать его, что невозможно из-за ограничений контекста?
А если вы ищете текст "поверхностно" по неким урезанным абстрактным embeddings, то какой смысл в этой статье? У вас нейросеть все равно не сможет полноценно искать документы

kostoms Jan 23 at 12:15

подождите, но если у вас 50 тыс документов и у вас поиск по тексту в них, то разве нейросети разве не нужно открыть каждый и прочитать его, что невозможно из-за ограничений контекста?

Gemini-2.5-Pro: Input size limit 500 MB - для небольших документов сошло бы и так.

А если вы ищете текст "поверхностно" по неким урезанным абстрактным embeddings, то какой смысл в этой статье?

Вы бы саму статью прочитали, что ли :)

victorsenkevich Jan 24 at 09:29

Все указанные советы не работают, а успех BM25 обратится в свою противоположность, если запрос чуток подправить:

Who doesn't like Quokkas?

И в этом вся слабость подходов, ориентированных на статистику.

А сама статья отличная, спасибо.