Comments 1
Лет 7 назад на фрилансе пару раз попадались задания типа - скачать с сайтов прайсы в pdf, распарсить и сохранить в базу. Вроде бы просто...
Брался за это, а потом встречал такие же проблемы что описаны в статье. Например, текст в таблице выглядит горизонтальным, а внутри это вертикальные блоки с буквами из разных слов.. Почему? А хз почему так сохранилось. Или, как в статье - текст не влезает в ячейку и обрезается, но сливается с соседней ячейкой.
В итоге небольшая, вроде бы, задача с дешёвой ценой выливалась в неделю плясок вокруг этих pdf и кровавым слезам..
После пары таких задач у меня правило - никогда (никогда!) не браться за парсинг pdf.
Вообще говоря, рендеринг pdf тоже не очень приятная работа, тоже стараюсь избегать.
Sign up to leave a comment.
Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 2