fangorntb Feb 25 at 18:45

Мама, у меня RAG: пути к улучшению, когда он «наивный»

Easy

22 min

6.9K

Machine learning*Python*Artificial IntelligenceNatural Language Processing*

Review

+15

Comments 6

vagon333 Feb 27 at 04:50

Вдобавок к рассмотренным вами вариантам улучшения качества RAG, знакомы ли вы с подходом, когда после разбивки на куски текста, каждый текстовый кусок обворачивается дополнительными метаданными? "RAG with Context-Based Chunking"

Антропик предложил подход для улучшения качества нарезанных кусков документа:

https://www.anthropic.com/news/contextual-retrieval

fangorntb Mar 3 at 01:46

Да, но, в целом, не вижу необходимости использовать его если есть гибридный поиск, при котором можно для каждого чанка можно хранить метаданные отдельно, и Graph RAG. В своих экспериментах мы пробовали этот похожий метод еще в 2023 и значимого преимущества у него не было. Кроме того, не все документы легко помещаются в контекстное окно, почему имплементировать этот метод 1:1 под реальную задачу невозможно -- все равно придётся бить на чанки.

PaveLuchkov Feb 27 at 05:45

Какие эмбиддинги и модели лучше работают с русским? Интересны локальные модели

fangorntb Mar 3 at 01:51

Зависит от задачи. Если исключительно для русского и задача буквально "искать сходство", то deepvk/USER-bge-m3. Если требуется мультиязычность, BAAI/bge-m3. Если задача ближе к RAG и (или) требуется неплохая мультиязычность, то intfloat/multilingual-e5-large-instruct (её можно запромптить).

Vazilin Feb 27 at 05:45

А мне тут бабка на базаре сказала, что маркдаун вреден для векторизации. Может не разбирается.

kdyadin Feb 27 at 05:45

@fangorntb, как вы предлагаете оценивать качество самого сгенерированного текста с учетом полноты извлечённой информации, её достоверности и согласованности, и каким образом можно совместить метрики извлечения (например, Precision@K) с метриками генерации (например, оценка связности или стилистической корректности ответа)? Кроме того, существует ли на практике устоявшийся набор инструментов или фреймворков для автоматизации этой многоуровневой оценки, и как, на ваш взгляд, лучше всего настраивать или адаптировать подобные инструменты под специфические требования разных областей применения RAG?