Комментарии 6
При этом текст распознаётся очень плохо. Много ошибок с точками и запятыми, не всегда объединяется перенесённое слово. Чем надо исправлять и редактировать распознанный текст в файле PDF ?
Спасибо.
Попробуйте просто открыть PDF в Chrome - он автоматом распознаёт текст в PDF.
в ocrmypdf очень важно язык вручную задавать. И иметь файл rus.traineddata в соответствующей папке. "Без этого не полетит" (с)
вообще не ясно почему опенсорсные сообщества не развивают djvu как основной открытый формат вместо pdf
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Информация
- Дата регистрации
- Дата основания
- 1996
- Численность
- 501–1 000 человек
- Местоположение
- Япония
Добавление OCR-слоя и другие преобразования PDF