Комментарии 26
Да, очень актуально. Что-то мелкое поправить в чертеже, или перевести пару страниц datasheet'а / инструкции. В основном пользуюсь Inkscape или LibreOffice Draw.
Из "проблемных" случаев:
иногда оба редактора вместо текстовых надписей при импорте вообще ничего не отображают;
попадаются файлы со странной кодировкой (привет 1251).
Пробовал для упомянутых случаев средства из статьи - не помогают :'(
pdfedit не удалось собрать (хочет qt3, который тоже не собрался)
В виде растра Inkscape всегда нормально импортирует (как и GIMP). Но хотелось бы вектор...
И тут случайно попался на глаза pdf2svg - ну хоть как-то! Мой файл pdf преобразовался в svg корректно. По сути делает то же, что и "pdftocairo input.pdf -svg"
Заметил 2 специфических момента:
в векторную графику (в контуры, не текст!) преобразовывает всё (в т.ч. и текст);
иногда пропускает растровые картинки, оставляет пустое место;
P.S. Спасибо автору перевода за подталкивание к очередному поиску :)
P.P.S. из статьи пригодился pdftk - очень удобно вырезать отдельную страницу.
Работаю на фрилансе. У меня не так уж много каких-то своих правил, но есть одно важное: если в задаче нужно парсить pdf - БЕГИ!
Невидимые блоки текста. Перекрывающиеся блоки текста. Текст, который выглядит горизонтальным, но блоки букв вертикальные. Текст картинками. Чего я уже только там не видел, а результат заказчику нужен, поскольку уже (по-глупости) согласился.
Писать в pdf - немного проще. Из html можно сгенерировать более-менее отформатированный документ. Ну, конечно, стили там не такие как в браузере и внезапно может все поехать из-за слишком длинного поля..
Но открывается везде, да.
Для текста и таблиц, наверное, OCR использовать проще. Пытался парсить банковские выписки в pdf, на выходе какая-то каша обычными методами.
Во-первых, насколько я помню, документы для IRS (да, с ними я тоже работал) изначально идут в виде форм. Из PDF форм данные можно вытащить хоть через `PyPDF`. Ну и вообще хоть какие-то решения для "IRS PDF parse" но гуглятся.
А во-вторых - не буду.
Это был сарказм. Вангую, рано или поздно кому-нибудь прилетит задача сделать парсер документов в формате видеоролика. Типа, у Васи нету сканера, нет времени, а документов много. Что делает Вася: берёт смартфон и снимает на видео каждый документ по-очереди (ведь так быстрее, чем фоткать). И отправляет видео-файл в бухгалтерию. А бухгалтер должен закинуть видео-файл в парсер, который импортирует информацию из всех отснятых документов. Надеюсь, Вам не будут сниться кошмары после прочтения этого комментария :)
На самом деле не такая уж и сложная задача. Здесь нам уже не важно что это pdf - это просто распознавание документов с фото. Видео нарезаем на фреймы, переводим в ч/б, поворачиваем и распознаем символы. Процент ошибок будет высоким, ну а вы как хотели.. Помнится, учавствовал в проекте по распознаванию чеков из магазинов - примерно то же самое.
Google translate уже давно переводит на лету с камеры, всяких AR-приложений тоже полно..
задаться целью изменить слово «convention»
Причём просто так изменить всё равно не выйдет. Придётся ещё корректировать таблицу ссылок на объекты, так как смещения изменятся. Ну только если не менять это слово на другое такой же длины.
Мораль -- не делайте бинарных форматов
Inkscape вполне успешно импортит страницу из PDF в вектор и даже может сохранять в PDF.
Правда при правке некоторых текстовых блоков начинается магия, но для штучного удаления фрагментов - чудесно.
"Редактировать PDF несложно". Ну, по статье видно что 'редактировать' - понятие широкое.
Кстати, я все еще не уверен который из адобовских уродов причинил больше вреда - флэш или PDF. А вы как думаете?
Тем не менее, в вопросах печати и передачи форматированного текста (когда важно то, как свёрстан документ) – ему нет равных.
Да и тот же флеш сильно двинул веб вперёд, хотя, может, и не в том направлении, в котором некоторым хотелось бы. Печально только то, что теперь мало чем можно его открыть, при том, что иногда попадаются старые SWF, созданные ещё во времена величия флеша.
Для меня основная проблема этого чудовищного формата для распечатки на бумажку не редактирование, а банальное копирование текста. Зачастую в буфере рваный перемешанный текст.
Вторая проблема — чтение на смартфоне. Немасштабируемый текст, приходится елозить по увеличенной картинке, сплошное мучение, а не чтение.
Кунг-фу стиля Linux: PDF для пингвинов