Comments / Profile of DedocTeam / Habr

Команда, занимающаяся разработкой проекта dedoc

Subscribers

Dedoc: как автоматически извлечь из текстового документа всё и даже немного больше

DedocTeam Dec 18 2023 at 09:03

Здравствуйте! Предположительно, придется написать свой Document loader , который будет, например, читать документы с помощью DedocManager и переводить выходной формат ParsedDocument в выходной формат Document loader-а. Похожим образом в langchain сделаны некоторые loader-ы, например, PDFMinerPDFasHTMLLoader

Dedoc: как автоматически извлечь из текстового документа всё и даже немного больше

DedocTeam Dec 18 2023 at 08:32

На данный момент логика связывания изображений с текстом реализована для PDF с текстовым слоем и DOCX. Спасибо за замечание, доработаем!

Dedoc: как автоматически извлечь из текстового документа всё и даже немного больше

DedocTeam Dec 12 2023 at 12:35

Сейчас поддерживает документы на русском и английском языках. Здесь описание параметра language https://dedoc.readthedocs.io/en/latest/dedoc_api_usage/api.html#api-parameters-description

Information

Specialization