Обновить

Комментарии 3

По локальной векторизации и реранкингу полностью согласен.
BAAI/bge-m3 и BAAI/bge-reranker-v2-m3 - лучший выбор.
Но почему для парсинга документов выбрали Docling, а не DeepseekOCR или MinerU?
И почему внешний реранкер Voyage а не Cohere?

Доброго!
Docling взяли не как OCR, а как document understanding — он сохраняет структуру (таблицы, заголовки, секции), без которой чанкинг теряет контекст. MinerU заточен под академические PDF и слабее на корпоративных документах. DeepSeek — это LLM, а не парсер; запускать её на каждый файл при индексации нецелесообразно. Qwen2.5-VL используется точечно — только для тяжёлых сканов, где Docling не справляется.

По Voyage vs Cohere: voyage-rerank-2 выше на MTEB Reranking при меньшей latency. Cohere сильнее в широкой многоязычности — если бы система была мультиязычной, он был бы равным кандидатом. В данном случае приоритет был у точности реранкинга.

"У self-hosted reranker есть один честный минус: он добавляет задержку в 150–400 мс на запрос. ... альтернатива — облачный Voyage AI rerank-2.5: он быстрее" - неужели Voyage быстрее 0.3 сек? Один запрос это сколько чанков и какая длина у них? Время Voyage какое?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации