Dimus-frontes17 апр в 13:10

Hybrid RAG для бизнеса: умный поиск по документам без облака и утечки данных

Средний

5 мин

7.9K

Искусственный интеллект

Туториал

+10

Комментарии 3

rakerunner 23 апр в 23:49

По локальной векторизации и реранкингу полностью согласен.
BAAI/bge-m3 и BAAI/bge-reranker-v2-m3 - лучший выбор.
Но почему для парсинга документов выбрали Docling, а не DeepseekOCR или MinerU?
И почему внешний реранкер Voyage а не Cohere?

Dimus-frontes 24 апр в 07:07

Доброго!
Docling взяли не как OCR, а как document understanding — он сохраняет структуру (таблицы, заголовки, секции), без которой чанкинг теряет контекст. MinerU заточен под академические PDF и слабее на корпоративных документах. DeepSeek — это LLM, а не парсер; запускать её на каждый файл при индексации нецелесообразно. Qwen2.5-VL используется точечно — только для тяжёлых сканов, где Docling не справляется.

По Voyage vs Cohere: voyage-rerank-2 выше на MTEB Reranking при меньшей latency. Cohere сильнее в широкой многоязычности — если бы система была мультиязычной, он был бы равным кандидатом. В данном случае приоритет был у точности реранкинга.

imageman 15 июн в 07:10

"У self-hosted reranker есть один честный минус: он добавляет задержку в 150–400 мс на запрос. ... альтернатива — облачный Voyage AI rerank-2.5: он быстрее" - неужели Voyage быстрее 0.3 сек? Один запрос это сколько чанков и какая длина у них? Время Voyage какое?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий