Pull to refresh

Comments 7

pdf2docx

В описании написано, что это PyMuPDF.

Стоит еще добавить способы извлечения текста из пдф в которых его нет, со сканов. Тоже несложно делается. (tesseract и gpt*)

Минусы:

  • Только текст будет извлечен и помещен в документ Word.

  • Все форматирование и оформление исходного PDF-файла будут потеряны.

Исключительный пример питонодрочерства. Есть люди, которые готовы пользоваться совершенно кривым функционалом, но только лишь бы на Питоне.

С такой фигней успешно справляется банальный копипаст. И даже более скажу - открывая Word'ом PDF, мы получим худо-бедно оформление (хоть зачастую и поехавшее), с ним работать можно. Например, я могу пройтись по тем или иным объектам в Word, и взять текст оттуда программно, вместо того, чтобы парсить просто текст. Ну, и картинки никто не отменял как ценность в PDF - например, у меня была задача нацеплять картинок из PDFного каталога.

На хабре тут кричат, кричат, "что ты там возишься с VBA, юзай Питон" - но ЗАЧЕМ, если с этой задачей успешней справляется именно VBA, а питоном это делать больно, долго и для конечного пользователя сложней?

Кто-нибудь может мне объяснить, в чем преимущество работать именно питоном с файлами MS Office для задач, с которыми справляется VBA?

VBA на бекэнде?

Чтобы не ехал redim через redim.

Вы не замечаете разницы между документом word и word'ом?

PyPDF2 уже устаревшая, желательно пользоваться pypdf (возможности те же, но чуть другой API)

Sign up to leave a comment.

Articles