Comments 5
Извиняются за мой английский, но this really pulls the rag from under deep learning.
Статья интересная, спасибо!
В то же время, попытку высадить эмбеддер специальным датасетом можно сравнить с попыткой высадить grep сжатым архивом: grep ищет слова (подстроки), а в архиве только буквы вперемежку.
Так и в их исследовании: эмбеддер ищет смыслы и способен справляться даже тогда, когда пересекающихся слов вообще нет, а bm25 ищет именно на комбинациях слов. Это два разных уровня. Если посмотреть на их тестовый датасет в таком ракурсе, то мы обнаружим, что там вообще всего примерно один смысл: что кому-то что-то нравится. Неудивительно, что для эмбеддера строки по смыслу слабо отличаются. И никакие мультивекторы тут не помогут.
В то же время, этот пример очень хорошо иллюстрирует, что в практике RAG - это не серебряная пуля и что нужно оценивать состав данных, а затем комбинировать инструменты.
Есть смысл избегать применения RAG практически везде, где легко справляются алгоритмы. Лёгкость алгоритмической обработки материала - прямое свидетельство конечности и относительной узости смыслового корпуса входных данных.
Но фокус в том, как устроен датасет. В нём 50 тысяч документов, 1000 запросов, причём каждый запрос имеет ровно 2 релевантных документа.
подождите, но если у вас 50 тыс документов и у вас поиск по тексту в них, то разве нейросети разве не нужно открыть каждый и прочитать его, что невозможно из-за ограничений контекста?
А если вы ищете текст "поверхностно" по неким урезанным абстрактным embeddings, то какой смысл в этой статье? У вас нейросеть все равно не сможет полноценно искать документы
подождите, но если у вас 50 тыс документов и у вас поиск по тексту в них, то разве нейросети разве не нужно открыть каждый и прочитать его, что невозможно из-за ограничений контекста?
Gemini-2.5-Pro: Input size limit 500 MB - для небольших документов сошло бы и так.
А если вы ищете текст "поверхностно" по неким урезанным абстрактным embeddings, то какой смысл в этой статье?
Вы бы саму статью прочитали, что ли :)
Все указанные советы не работают, а успех BM25 обратится в свою противоположность, если запрос чуток подправить:
Who doesn't like Quokkas?
И в этом вся слабость подходов, ориентированных на статистику.
А сама статья отличная, спасибо.
Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей