Комментарии 10
А ваш подход работает, если PDF - это сканированная картинка, несколько страниц идет текст в портретной ориентации, а дальше идет огромная таблица в альбомной ориентации? Сейчас используем https://textract.readthedocs.io , на "обычных" пдфках он дает вполне приемлемые результаты (для сканированных пдф используем method = 'tesseract'), однако подобную таблицу он не осилил...
Пример подобного PDF: http://publication.pravo.gov.ru/document/view/0001202309280008
У него назначение немного другое - он не вытаскивает текст непосредственно, а распознает его и добавляет в пдф текстовый слой, чтобы можно было выделять и копировать текст. Но к сожалению на данном документе он тоже не помог, в текстовом слое начиная с 7 страницы, где эта таблица, бессмысленный набор букв...
Не пробовали обнаруживать ориентацию страницы и поворачивать её если надо?
А справится ли скрипт с двуколоночным пдф? Сможет ли выделит текст отдельно для каждой колонки?
Для пользователей Windows - надо еще Poppler поставить.
Нубский вопрос - Tesseract'у можно приоритет русского поднять?
А то
Onnata ToBapa NpovsB0guTCA & TeYeHie Cpoka, yKasaHHOTO B AOTOBOpe, NO YeHaM, BICTABNeHHEIM Ha ZaTy OTTPysKH
как-то не очень выглядит...
Извлечение текста из файлов PDF при помощи Python