Pull to refresh

Comments 8

Спасибо огромное за статью! Как раз пишу диплом по RAG

Спасибо за очередной первоклассный обзорный материал! По желанию в раздел "(10) Гибридный поиск" можно было бы добавить текстовое упоминание еще одного ключевого этапа этого подхода - переранжирования, который графически отражен на картинке как "Cross-Encoder", т.е. при гибридном поиске мы комбинируем результаты обоих подходов и обязательно переранжируем их или специальными алгоритмами (Reciprocal Rank Fusion (RRF); Min-Max score normalization...) или отдельными ИИ моделями для оценки релевантности найденного запросу (Cross-Encoder... вплоть до LLM с вопросами "насколько баллов найденное ... соответствует запросу ...") и получаем улучшенную поисковую выдачу, а без переранживания гибридный поиск скорее всего будет работать хуже, чем просто отдельный лексический или семантический поиск. И, соотвественно, в этот же раздел или в "(5) Оптимизация структуры индекса" упомянуть совместно с алгоритмами еще и пример БД поддерживающих его OpenSearch/Elasticsearch, Milvus, Vespa, Qdrant... Ссылки по теме:
https://learn.microsoft.com/en-us/azure/search/hybrid-search-ranking
https://qdrant.tech/articles/hybrid-search/
https://opensearch.org/blog/hybrid-search/
https://milvus.io/docs/multi-vector-search.md

Спасибо за такую подробную статью, как раз вовремя :-)

Безусловно, LLM (Large Language Models) впечатляют своими возможностями и постоянно растущей интеллектуальной мощью. Однако, не стоит переоценивать их значение, забывая о фундаментальных аспектах, таких как качественные данные и их грамотная обработка. Эффективность любой RAG (Retrieval-Augmented Generation) системы напрямую связана с этими базовыми элементами. Только при наличии тщательно подготовленных и правильно обработанных данных, мощные алгоритмы смогут реализовать свой потенциал в полной мере и принести реальную пользу пользователям. Спасибо за отличный материал!

Sign up to leave a comment.