KunDeal May 2 at 18:45

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Medium

8 min

9.9K

Machine learning * Artificial IntelligenceSearch engines *

Review

From sandbox

Comments 6

onyxmaster May 2 at 21:15

В эмбеддерах нет bge-m3, а очень зря.

KunDeal May 3 at 07:30

На момент теста не подумал о нем)

Alexsolo2306 May 3 at 07:13

Из каких документов состоит ваш корпус данных? Это чистый текст в формате docx? есть ли в них таблицы, встроенные приложения в документы? сканы, excel, диаграммы, схемы, встроенные в текст изображения? схемы BPMN ? вы проводите пред обработку документов в markdawn? размечаете метаданные?
я собираю бота по корпоративным нормативным знаниям предприятия: приказы, положения, регламенты, порядки, инструкции.

KunDeal May 3 at 07:27

В базе:
- 858 PDF - решения СИП, скачаны с Caselook
- 1 687 DOCX - тоже решения СИП, скачаны с Caselook
- 1 PDF - ГК РФ Часть 4 (с учётом поправок ФЗ-214, но отдельного файла закона нет)

Формат документов - чистый юридический текст. Таблицы в части DOCX-файлов есть - они обрабатываются. Сканов, изображений, BPMN нет.

Предобработки в Markdown нет - документы читаются напрямую (PDF через PyMuPDF, DOCX через python-docx).

Метаданные размечаются- имя файла, номер документа, позиция чанка внутри документа.

GolDodger May 3 at 07:13

Проверьте эмбеддинги qwen3-embedding-8b, pplx-embed-4b от perplexity, я уверен, что один из них точно будет в топе. bge m3 нужно локально использовать с его мультивекторной фичей, сам по себе он слабый

KunDeal May 3 at 07:25

Интересно, возможно, в будущем проверю)