Обновить

Комментарии 4

у меня достаточно много документов в pdf в виде сканов, насколько оно дружит с таким?

Не знаю как у автора статьи - у меня распознание документа через doctr, дальше работаем как с текстом. Графики распознаются криво. Сейчас вышел мультимодальный embedding, качество его работы я не проверял, по идее он убирает кодовый бойлерплейт по документам разных типов. Описание, например, тут https://habr.com/ru/articles/1010030/

В эту функцию даются файлы с текстом, а для перевода файлов со сканами в ProTalk есть отдельные функции

Результаты тестов интересно посмотреть. Также интересно продолжение: графы и кластеры графов

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации