Pull to refresh

Comments 6

Скажите, dedoc поддерживает только документы на русском языке?

Здравствуйте, а можно ли dedoc подружить с langchain?

Здравствуйте! Предположительно, придется написать свой Document loader , который будет, например, читать документы с помощью DedocManager и переводить выходной формат ParsedDocument в выходной формат Document loader-а. Похожим образом в langchain сделаны некоторые loader-ы, например, PDFMinerPDFasHTMLLoader

Почему при извлечении Attachments из файла PPTX они нигде не привязываются к своему местоположению в документе. В docx у строки имеется свойство в Annotation, которое содержит uid следующего за ней извлеченного вложения.

На данный момент логика связывания изображений с текстом реализована для PDF с текстовым слоем и DOCX. Спасибо за замечание, доработаем!

Sign up to leave a comment.