Как стать автором
Обновить

Комментарии 26

Спасибо за перевод, очень актуальная информация. Достаточно часто приходится работать с PDF в Linux.

Да, очень актуально. Что-то мелкое поправить в чертеже, или перевести пару страниц datasheet'а / инструкции. В основном пользуюсь Inkscape или LibreOffice Draw.

Из "проблемных" случаев:

  • иногда оба редактора вместо текстовых надписей при импорте вообще ничего не отображают;

  • попадаются файлы со странной кодировкой (привет 1251).

Пробовал для упомянутых случаев средства из статьи - не помогают :'(

pdfedit не удалось собрать (хочет qt3, который тоже не собрался)

В виде растра Inkscape всегда нормально импортирует (как и GIMP). Но хотелось бы вектор...

И тут случайно попался на глаза pdf2svg - ну хоть как-то! Мой файл pdf преобразовался в svg корректно. По сути делает то же, что и "pdftocairo input.pdf -svg"

Заметил 2 специфических момента:

  • в векторную графику (в контуры, не текст!) преобразовывает всё (в т.ч. и текст);

  • иногда пропускает растровые картинки, оставляет пустое место;

P.S. Спасибо автору перевода за подталкивание к очередному поиску :)

P.P.S. из статьи пригодился pdftk - очень удобно вырезать отдельную страницу.

Ошибся. Inkscape при "Импорте Poppler/Cairo" делает то же самое, импортирует весь pdf в векторные элементы.

Я не додумался их разгруппировать после импорта, думал, что импортируется растровая картинка, как в GIMP

Работаю на фрилансе. У меня не так уж много каких-то своих правил, но есть одно важное: если в задаче нужно парсить pdf - БЕГИ!

Невидимые блоки текста. Перекрывающиеся блоки текста. Текст, который выглядит горизонтальным, но блоки букв вертикальные. Текст картинками. Чего я уже только там не видел, а результат заказчику нужен, поскольку уже (по-глупости) согласился.

Писать в pdf - немного проще. Из html можно сгенерировать более-менее отформатированный документ. Ну, конечно, стили там не такие как в браузере и внезапно может все поехать из-за слишком длинного поля..

Но открывается везде, да.

Для текста и таблиц, наверное, OCR использовать проще. Пытался парсить банковские выписки в pdf, на выходе какая-то каша обычными методами.

Во-первых, насколько я помню, документы для IRS (да, с ними я тоже работал) изначально идут в виде форм. Из PDF форм данные можно вытащить хоть через `PyPDF`. Ну и вообще хоть какие-то решения для "IRS PDF parse" но гуглятся.

А во-вторых - не буду.

Это был сарказм. Вангую, рано или поздно кому-нибудь прилетит задача сделать парсер документов в формате видеоролика. Типа, у Васи нету сканера, нет времени, а документов много. Что делает Вася: берёт смартфон и снимает на видео каждый документ по-очереди (ведь так быстрее, чем фоткать). И отправляет видео-файл в бухгалтерию. А бухгалтер должен закинуть видео-файл в парсер, который импортирует информацию из всех отснятых документов. Надеюсь, Вам не будут сниться кошмары после прочтения этого комментария :)

На самом деле не такая уж и сложная задача. Здесь нам уже не важно что это pdf - это просто распознавание документов с фото. Видео нарезаем на фреймы, переводим в ч/б, поворачиваем и распознаем символы. Процент ошибок будет высоким, ну а вы как хотели.. Помнится, учавствовал в проекте по распознаванию чеков из магазинов - примерно то же самое.

Google translate уже давно переводит на лету с камеры, всяких AR-приложений тоже полно..

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Естественным образом — никак. Inkscape конвертирует pdf в вектор (может быть даже не весь pdf, а отдельную страничку), его можно изменить, а потом сохранить как pdf, или еще что-то. Потом надо склеивать отдельные странички.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

PDF создавался как формат для печати, для того чтоб на разных устройствах видимый результат был всегда одинаков. Редактировать его - бред, редактируется исходник и только он.

задаться целью изменить слово «convention»

Причём просто так изменить всё равно не выйдет. Придётся ещё корректировать таблицу ссылок на объекты, так как смещения изменятся. Ну только если не менять это слово на другое такой же длины.

Для слов короче, наверное можно использовать пробелы нулевой ширины.

Мораль -- не делайте бинарных форматов

Мораль: если вам нужно редактировать write only бинарный формат - значит, ваша жизнь в какой то момент свернула не туда.

НЛО прилетело и опубликовало эту надпись здесь

Inkscape вполне успешно импортит страницу из PDF в вектор и даже может сохранять в PDF.

Правда при правке некоторых текстовых блоков начинается магия, но для штучного удаления фрагментов - чудесно.

"Редактировать PDF несложно". Ну, по статье видно что 'редактировать' - понятие широкое.

Кстати, я все еще не уверен который из адобовских уродов причинил больше вреда - флэш или PDF. А вы как думаете?

Тем не менее, в вопросах печати и передачи форматированного текста (когда важно то, как свёрстан документ) – ему нет равных.

Да и тот же флеш сильно двинул веб вперёд, хотя, может, и не в том направлении, в котором некоторым хотелось бы. Печально только то, что теперь мало чем можно его открыть, при том, что иногда попадаются старые SWF, созданные ещё во времена величия флеша.

НЛО прилетело и опубликовало эту надпись здесь
Очень странно. В статье про PDF ни разу не упомянут самый интенсивно развивающийся проект, связанный с PDF: Apache PDFBox
В ответ на набившую оскомину мантру «PDF не предназначен для редактирования, в вашей консерватории что-то не так!»
Для меня основная проблема этого чудовищного формата для распечатки на бумажку не редактирование, а банальное копирование текста. Зачастую в буфере рваный перемешанный текст.
Вторая проблема — чтение на смартфоне. Немасштабируемый текст, приходится елозить по увеличенной картинке, сплошное мучение, а не чтение.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.