Здравствуйте! Предположительно, придется написать свой Document loader , который будет, например, читать документы с помощью DedocManager и переводить выходной формат ParsedDocument в выходной формат Document loader-а. Похожим образом в langchain сделаны некоторые loader-ы, например, PDFMinerPDFasHTMLLoader
Здравствуйте! Предположительно, придется написать свой Document loader , который будет, например, читать документы с помощью DedocManager и переводить выходной формат ParsedDocument в выходной формат Document loader-а. Похожим образом в langchain сделаны некоторые loader-ы, например, PDFMinerPDFasHTMLLoader
На данный момент логика связывания изображений с текстом реализована для PDF с текстовым слоем и DOCX. Спасибо за замечание, доработаем!
Сейчас поддерживает документы на русском и английском языках. Здесь описание параметра language https://dedoc.readthedocs.io/en/latest/dedoc_api_usage/api.html#api-parameters-description