Как стать автором
Обновить

Комментарии 25

Я иногда пользуюсь pdf&djvu bookmarker - утилитой для создания и редактирования оглавлений. Довольно часто документы не содержат отдельного древовидного оглавления - но его можно сгенерировать из текстового оглавления самой книги.

Если статья про утилиты, то зачем половина про c++ библиотеку и так мало про собственно утилиты. А тот же foxit где?

На самом деле да. Наверняка есть масса полезных бесплатно-свободных утилит, ибо платно-малварные уже достали, всю поисковую выдачу забивают. И вообще работа с файлами разных форматов (в том числе и документами pdf) это такая благодатная тема, на которой пытаются срубить бабла огромное количество "шароварщиков", мелких контор, да и просто хакеров. Ведь обычно нужно сделать что-то с документом: сгенерировать оглавление, вставить/удалить страницу, извлечь картинку в высоком разрешении, конвертировать в другой формат, а у человека ничего кроме акробат ридера не установлено.

Друзья, а есть что то готовое что бы через Python или Терминал определенную ссылку в теле PDF заменить на другую?
Например в файле есть ссылка google.com и мне надо заменить ее на bing.com.
Хочу в пакетном режиме обработку.
Ищу функцию Replace и в тех библиотеках что я изучал нет такого.

А нельзя в том же питоне прочитать сырую PDF'ку как строку и тупо регулярками найти все ссылки и заменить?

К сожалению нет. Я бы так давно сделал.

PyPDF, чтобы перебрать все текстовые объекты и изменить.

Правда, вы можете столкнуться с тем, что ваша ссылка это несколько объектов: http: отдельно, // отдельно, domain отдельно, и лежат они в списке объектов не по порядку. Счастливо развлекаться.

Да я уже понял что это - тот еще квест :)

1) Небольшой список бесплатных PDF утилит (веб- и десктоп версии, я правда лично пока только установил, не особо тестировал): https://www.pdf24.org

2) А вот действительно серьёзная вещь: Master PDF Editor. Без ссылки, потому что нужна не последняя версия с сайта производителя, она платная, а последняя бесплатная версия 4.X.XX. Это будет прямо навороченный комбайн, позволяющий редактировать PDF, уникальный в своём роде инструмент. Легко находится версия под Linux (у меня например работает 4.3.89 под CentOS7), но не получается найти дистрибутив 4 версии под винду. Может кто поделится работающей ссылкой в комментариях?

Гугл привёл сюда

Кто знает, есть ли софт под линукс чтобы выполнить вот такую задачу: "склеить" два десятка PDF в один документ и сделать в оглавлении ссылки на страницы?

НЛО прилетело и опубликовало эту надпись здесь

Спасибо!

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

ИМХО - лучшая "альтернативная утилита для PDF" это MS Word начиная с 2019. Преобразовывает PDF в практически обычный офисный документ.

НЛО прилетело и опубликовало эту надпись здесь
LibreOffice Writer умеет открывать PDF как условный odt/docx, и редактировать его можно

Разве? У меня при попытке открыть PDF Writer'ом принудительно вызывается Draw.
А уж он делает что-то адовое. Недавно только табличку переводил, так он половину символов мелкого шрифта переврал, слои задвоил, оставив под текстовым слоем слой растровой картинки, и ячейки таблицы в случайном порядке сделал отдельными текстовыми блоками. Ворд же просто сделал обычную табличку.

НЛО прилетело и опубликовало эту надпись здесь

По хорошему давно нужно избавиться от этого убогого формата pdf, который даже перевести нельзя нормально не потеряв форматирование.

PDF - это не конкурент docx, odt, rtf.

PDF - это конкурент PNG и SVG. Это формат для красивого изображения страницы.

основной документ ISO 32000-2:2020 — Document management – Portable document format – Part 2: PDF 2.0 содержит 1003 страницы

Стандарт USB, описания процессоров и много чего другого содержат на несколько тысяч страниц больше.


Поэтому дело не в сложности стандарта, а, скорее, в нежелании досконально им заниматься.

Хочется упомянуть оперсорсный ридер Sioyek (https://sioyek.info/), с навигацией по типу Vim и кучей фишек, которые помогают читать научную и техническую литературу.

В частности можно выделять строчки цветом, не внося изменений в сам PDF, данные о выделении хранятся в файле sqlite, который можно перетаскивать с компа на комп (книги идентифицируются по контрольной сумме своих файлов).

Кто вообще объяснит, зачем этот сложный в реализации формат нужен?
Вообще не понимаю его преимуществ.
Не отредактировать толком, сложен в реализации.
Какой же это portable?
Я бы назвал его скорее legacy.
Не понимаю и все....

Не отредактировать толком

В точности как я уже писал:

Юзера: Хорошо б, если б придумали что-то такое, чтобы как бумага, "что написано пером — не вырубить топором", только без бумаги!

Adobe: придумывает PDF

Юзера: всем хорош PDF, вот только PDF, в отличие от бумажного документа, подредактировать нельзя — пометки добавить, форму заполнить...

Adobe: придумывает Acrobat и PDF forms

Юзера: всем хорош Acrobat, вот только теперь кто попало может внести изменения в мои документы — нехорошо!

Adobe: придумывает шифрование и парольную защиту

...и так восемь раз...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий