Комментарии 6
Скажите, dedoc поддерживает только документы на русском языке?
Сейчас поддерживает документы на русском и английском языках. Здесь описание параметра language https://dedoc.readthedocs.io/en/latest/dedoc_api_usage/api.html#api-parameters-description
Здравствуйте, а можно ли dedoc подружить с langchain?
Здравствуйте! Предположительно, придется написать свой Document loader , который будет, например, читать документы с помощью DedocManager и переводить выходной формат ParsedDocument в выходной формат Document loader-а. Похожим образом в langchain сделаны некоторые loader-ы, например, PDFMinerPDFasHTMLLoader
Почему при извлечении Attachments из файла PPTX они нигде не привязываются к своему местоположению в документе. В docx у строки имеется свойство в Annotation, которое содержит uid следующего за ней извлеченного вложения.
Dedoc: как автоматически извлечь из текстового документа всё и даже немного больше