ru_vds 4 окт 2023 в 16:00

Извлечение текста из файлов PDF при помощи Python

Средний

15 мин

50K

Блог компании RUVDS.comPDFPython*Алгоритмы*Хранение данных*

Туториал

Перевод

+53

Комментарии 10

hssergey 4 окт 2023 в 16:25

А ваш подход работает, если PDF - это сканированная картинка, несколько страниц идет текст в портретной ориентации, а дальше идет огромная таблица в альбомной ориентации? Сейчас используем https://textract.readthedocs.io , на "обычных" пдфках он дает вполне приемлемые результаты (для сканированных пдф используем method = 'tesseract'), однако подобную таблицу он не осилил...

hssergey 4 окт 2023 в 16:28

Пример подобного PDF: http://publication.pravo.gov.ru/document/view/0001202309280008

sklart 4 окт 2023 в 23:29

Я использую для ведения архива документации OCRmyPDF.

Вроде бы поддерживает распознавание разной ориентации страниц...

hssergey 5 окт 2023 в 08:33

У него назначение немного другое - он не вытаскивает текст непосредственно, а распознает его и добавляет в пдф текстовый слой, чтобы можно было выделять и копировать текст. Но к сожалению на данном документе он тоже не помог, в текстовом слое начиная с 7 страницы, где эта таблица, бессмысленный набор букв...

sklart 5 окт 2023 в 14:32

Если предварительно попросить повернуть страницы в соответствии с ориентацией текста

FOR /r %F IN (*.pdf) DO ocrmypdf -l eng+rus --rotate-pages --skip-text --optimize 1 --output-type pdf "%F" "%~fF"

то все с ним нормально

ris58h 5 окт 2023 в 13:48

Не пробовали обнаруживать ориентацию страницы и поворачивать её если надо?

Tesy 9 окт 2023 в 08:34

А справится ли скрипт с двуколоночным пдф? Сможет ли выделит текст отдельно для каждой колонки?

ki11mapls 12 окт 2023 в 08:24

Опробовал код. С двухколоночными pdf-ками справляется, но парсит колонки справа налево почему-то

DonAlPAtino 11 окт 2023 в 12:23

Для пользователей Windows - надо еще Poppler поставить.

Нубский вопрос - Tesseract'у можно приоритет русского поднять?

А то

Onnata ToBapa NpovsB0guTCA & TeYeHie Cpoka, yKasaHHOTO B AOTOBOpe, NO YeHaM, BICTABNeHHEIM Ha ZaTy OTTPysKH

как-то не очень выглядит...

SPNkd 30 окт 2023 в 09:37

В функции - image_to_text можно добавить необходимый язык:

text = pytesseract.image_to_string(img, lang='rus')

для этого необходимо поставить пакет с русским языком, для Debian/Ubuntu это:

apt-cache search tesseract-ocr
sudo apt install tesseract-ocr-rus

Зарегистрируйтесь на Хабре, чтобы оставить комментарий