В базе: - 858 PDF - решения СИП, скачаны с Caselook - 1 687 DOCX - тоже решения СИП, скачаны с Caselook - 1 PDF - ГК РФ Часть 4 (с учётом поправок ФЗ-214, но отдельного файла закона нет)
Формат документов - чистый юридический текст. Таблицы в части DOCX-файлов есть - они обрабатываются. Сканов, изображений, BPMN нет.
Предобработки в Markdown нет - документы читаются напрямую (PDF через PyMuPDF, DOCX через python-docx).
Метаданные размечаются- имя файла, номер документа, позиция чанка внутри документа.
На момент теста не подумал о нем)
В базе:
- 858 PDF - решения СИП, скачаны с Caselook
- 1 687 DOCX - тоже решения СИП, скачаны с Caselook
- 1 PDF - ГК РФ Часть 4 (с учётом поправок ФЗ-214, но отдельного файла закона нет)
Формат документов - чистый юридический текст. Таблицы в части DOCX-файлов есть - они обрабатываются. Сканов, изображений, BPMN нет.
Предобработки в Markdown нет - документы читаются напрямую (PDF через PyMuPDF, DOCX через python-docx).
Метаданные размечаются- имя файла, номер документа, позиция чанка внутри документа.
Интересно, возможно, в будущем проверю)