Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 2 / Comments / Habr

baldr Oct 1 2024 at 19:24

Лет 7 назад на фрилансе пару раз попадались задания типа - скачать с сайтов прайсы в pdf, распарсить и сохранить в базу. Вроде бы просто...

Брался за это, а потом встречал такие же проблемы что описаны в статье. Например, текст в таблице выглядит горизонтальным, а внутри это вертикальные блоки с буквами из разных слов.. Почему? А хз почему так сохранилось. Или, как в статье - текст не влезает в ячейку и обрезается, но сливается с соседней ячейкой.

В итоге небольшая, вроде бы, задача с дешёвой ценой выливалась в неделю плясок вокруг этих pdf и кровавым слезам..

После пары таких задач у меня правило - никогда (никогда!) не браться за парсинг pdf.

Вообще говоря, рендеринг pdf тоже не очень приятная работа, тоже стараюсь избегать.