Как стать автором
Обновить

Комментарии 157

Проще всего - qpdf. Особенно если нужно делать одно и то же несколько раз.

Самый простой способ — это открыть пдф в либре или mso.

Нет, к сожалению. На сложных документах начинает крючить верстку, текст и картинки могут разъехаться. Волей обстоятельств в свое время был вынужден работать с кучей пдф, так вот - чуда не случилось. Нормально справляются с редактированием и оптимизацией всего два пакета: старый добрый Акробат и Foxit Phantom PDF. Все остальные - со своими погремухами, глюками и приколами ограниченно годятся только для простых малостраничных документов.

Так речь шла про простой, а не про надежный.
Так-то кроме акрьбата вариантов нет достойных, у всех остальных приколы лезут.
А ещё лучше работать с оригиналом, а в пдф его уже экспортировать по окончании работ.

У Акробата есть существенный и главный минус: он блокирует проверку документа антивирусами. Только по этой причине, у себя в организации я его запретил и поставил всем Фоксит.... правда пришлось сделать исключение: есть несколько банковских документов, которые может редактировать только Акробат. Но заинтересованные пользователи были проинструктированы.

MSO нормально работает с pdf, если предварительно его «распечатать» через Microsoft PDF принтер.
И затем, открыв его в Word легко вставить прозрачный png с подписью или печатью без обтекания. Разметка останется на месте

Librе прибита гвоздями к seahorse на некоторых системах, а он не умеет работать с сертами PKCS#12 от слова совсем.

PDF Expert, если уж разговор о редактировании пдф (для невозможности чего он используется обычно), то можно с трекеров скачать.

Еще Inkscape хорошо редактирует PDF, лучше сохраняет форматирование нежели офисные пакеты.

Неправда. InkScape редактирует pdf также, как и любой другой векторный редактор: плохо. Но если пдфка простая: две буквы и квадратик, то подойдет что угодно.

Мне, давно ещё, попадался тред на реддите, где разрабы инкскейпа жаловались, что пдф как формат сложно поддерживать, ибо он старый с кучей легаси, описан плохо, спецификация от адобе на сотни страниц, но это совсем не помогает, тех.поддержки от адобе тоже никакой. Сейчас, к сожалению, не могу найти.
И я думаю, проблема поддержки пдф, в том числе у других программ, именно в этом.

как и любой другой векторный редактор: плохо

лучше сохраняет форматирование нежели офисные пакеты

Так в чем неправда? Векторные редакторы работают с PDF лучше чем офисные. А плохо или хорошо - это относительное понятие, лучше не будет, таков PDF.

Под поставить подпись, что имеется в виду, нарисовать её мышкой, что ли? Что из перечисленного может добавлять в произвольное место прозрачный png с подписью, кроме Акробата?

Не хочу разочаровывать, но с прозрачным png у pdf - "всё плохо". Пришлось писать код, по точкам разбирающий картинку, со скейлингом и плюшками. Т.е. или в векторы перегнать (Adobe illustrator так умеет), или вот такой ужас из кучи точек в заданных координатах.

Не заметил особых проблем отображения в акробате и элементс, где такая возможность есть.

Другое дело, что вставленное изображение можно выделить в любом ридере, вот это плохо, приходится конвертировать пдф в картинки.

Для установки подписи на PDF пользуюсь планшетом со стилусом. В моем случае это iPad старенький, хотя сейчас есть и более интересные планшеты, которые работают с PDF, типа remarkable 2.

Я конечно понимаю, что покупать планшет для того, чтобы поставить подпись - это расточительно. Но если покупать "читалку для книг", то иметь стилус в ней очень полезная опция.

Я до сих пор не могу понять, почему macos'ный Preview.app не умеет вставлять картинки в pdf. Приходится сначала конвертить pdf в jpg, накладывать ту самую прозрачную png с подписью и конвертить обратно в pdf.

Помню искал библиотеку для заполнения PDF-форм на PHP, так намучился. То кодировка не та, то в некоторых программах текст в полях не отображается, или вообще либа падает.

Нужно понимать, что в общем случае "редактировать PDF" -- невозможно. PDF как и PostScript это не какой-то документ с объектной моделью, как Microsoft Word или HTML с DOM, где можно любой объект выделить и редактировать. PDF и PS -- это компьютерные программы для интерпретатора, которые говорят как что-то отобразить на странице. Там нет чёткой модели, какого-то определённого представления, что там закодировано. Там может быть буквально что угодно! И "редактировать" это -- практически невозможно. Потому всё и ограничивается только добавлением чего-то поверх уже отрисованной страницы. Поэтому слово "редактировать" здесь несколько громкое. Это просто способ что-то добавить к странице. Редактировать полноценно можно было только исходный документ, обладающий определённой, известной редактору структурой (объектной моделью).

Вот тут вы ошибаетесь. Если PS — это язык программирования (ещё и полный по Тьюрингу), то PDF таковым уже не является. Фактически, PDF — это PS с вырезанными скриптами. Остаётся только статическое описание документа.


Конечно, ни о каком полноценном редактировании речи идти не может, но вот что-нибудь дорисовать или убрать вполне можно. А зачастую ещё и править куски текста.

В моём случае внутри документов в PDF оказались слоги, как отдельные объекты, с абсолютным позиционированием на странице. И босс, крайне возмущённый, что у меня ушло два месяца, чтобы сделать программу, которая просто меняет одни слова в документе на другие (гораздо более длинные)

Эм, я вычищал из PDF текстовые блоки. Через Foxit, что ли, не помню уже.

Абсолютно ничего подобного, откуда вы вообще все это вытащили? Я 20+ лет работаю с пдфами и могу совершенно точно сказать, что вы полностью не правы, от слова «вообще»

PDF отлично открывается в Adobe Illustrator и там редактируется абсолютно все. Можно и шрифты вытащить. А от PS там жалкие огрызки, в самой основе. Более того, современные форматы Illustrator — сделаны совместимыми с пдф в обе стороны. Можно как открыть пдф в илле, так и наоборот, открыть ai просмотровщиком пдф

Объектная модель там тоже есть — рекомендую посмотреть Adobe API. Ибо без объектной модели вообще нельзя было бы редактировать эти файлы, ни в какой программе. Любой объект там выделяется и крутится как угодно, хоть внутри, хоть снаружи

Даже постскрипт можно импортировать в илл и работать как с любым другим векторным файлом Адоб.

Старый корел умел создавать пдфы, которые никак и ни в чем нельзя было отредактировать, потому что непредсказуемо слетали все прозрачности и наложения, но это проблемы корявого, а не самого пдф

Это очень круто, что есть программа, которая такое умеет. Но @fk0 все-таки прав. Никакой "объектной модели" в PDF нет и редактировать в нем что-либо практически нереально. PDF файл это тупо набор команд вида "нарисуй линию из точки А в точку Б", "нарисуй букву Ы по координатам (x,y)", etc. Даже понять, где заканчивается одно слово и начинается другое без сложных эвристик нельзя.

Даже еще хуже. Там куча относительных команд. Нарисуй букву Б (что именно надо рисовать определено опять в отдельном месте) на строчку ниже от текущей позиции. Что такое строка и какие у нее размеры определено выше и может переопределяться. На это накладывается переопределение масштаба, разворота страницы и вообще примерно всего. Все рисуется друг поверх друга. Хаки с нарисовать в несколько проходов (проходы очень далеко по коду друг от друга) используются в реальном мире.

В теории сделать нормальное редактирование можно. На практике очень сложно. Как бы не реально нейронками надо угадывать что же там такое нарисовано на самом деле.

По опыту: от-OCRить коммерческим софтом, сохранить в docx, отредатировать и снова экспортнуть. Это самый надёжный малоглючный метод для редактирования в автомате, оптом.

Хорошо, но долго. Тысячи страниц через такое прогнать за разумное время железа много надо. Иногда правда проще разобрать нужную часть и сделать небольшие правки непосредственно в ПДФ.

И все равно это будет выгоднее ручного труда.


У меня вот, интересная задачка была: сделать перевод программы конференции (для бюрократической отчётности). Естественно, никакой речи о том, чтобы делать руками, и не было. Получилась цепочка из 8 действий, но оно того стоило.

Классические задачи. Заметить одно слово на другое или распарсить какой-то текст из пдфки.

Да все можно. Но железа все равно много надо. Иногда месяц-две работы разработчика выходит дешевле.

//терпеливо

Если пдф не сохраняет семантическую структуру тестового документа (особенно старые версии стандарта), это не делает его форматом без структуры и иерархии объектов. Набор инструкций «нарисуй то или другое по координатам» — это постскрипт, а не пдф

Он вообще, изначально и сейчас тоже, не рассчитан на создание редактируемых текстовых документов. И это абсолютно не значит — что его «нельзя редактировать». Его можно редактировать, легко и непринужденно, в любом виде, хоть вдоль, хоть поперек.

Если кто-то пытается использовать его в качестве текстового формата — это боль и некомпетентность, увы. Его не для этого придумали, но иногда приходится, к сожалению

Мало кто помнит, что первые версии PDF были полностью совместимы с первыми версиями PCL. Из под DOS 6.22 на HP LJ 5L документ PDF печатался командой copy text.pdf lpt1:

Как сейчас - не знаю.

В вашем принтере стоял интерпретатор PostScript, поэтому оно работало, ибо те версии PDF являлись подмножеством PostScript

Стоял. Во всех нормальных HP того времени была поддержка PS. Да и сейчас попадается.

Иллюстратор (как и соответствующий модуль импорта в Corel) являются интерпретаторами PS/PDF, то есть по факту полностью выполняют весь PS/PDF код программы, восстанавливая документ.

Нет там кода, код был в постскрипте. Пдф с пс не совместим, там от пс оставлены только инструкции «нарисовать фигуру, залить цветом» и тд тп. Там нет ни процедур, ни переменных — ничего вообще

Любой просмотровшик, редактор или парсер пдф — делает точно такой же разбор. Более того, с таким подходом — любой векторный формат можно назвать «интерпретируемой программой», потому что в самом илле точно также пишется «нарисовать фигуру, по таким то координатам». Просто илл лучше сохраняет семантику документа, а пдф для этого не было предназначен — потому что «п» там это — «портейбл»

там от пс оставлены только инструкции «нарисовать фигуру, залить цветом» и тд тп.

Потому, что, внезапно, PDF изначально был ПОДМНОЖЕСТВОМ PostScript Level 3. До такой степени, что любой RIP поддерживающий PS Level 3 умеет и PDF/X-1a как минимум. И да, "инструкции" нарисовать фигуру как бы и есть "интерпретируемая программа". Но назвать таковой ЛЮБОЙ векторный формат нельзя. И родной AI и, к примеру, файл CorelDraw таковыми не являются, ибо их векторы "внутри" не привязаны жестко к конкретным координатам (векторные объекты в CorelDraw, к примеру, описаны математически во внутренней системе координат с внутренней точностью и только потом им задано положение на листе и размер, тут ближе не к программе, а хранилищу объектов, со свойствами)

У пдф нет обратной совместимости с пс. Это в пс добавили поддержку пдф, а не наоборот

Куда и к чему привязаны обьекты — дело фантазии создателя формата. Инструкции по выводу определенных фигур есть в любом векторном формате, просто потому что это не растр.

В 1998 году Adobe ввела новый стандарт PostScript 3. Изменения по сравнению с Level 2 незначительны. Это можно понять, учитывая, что множество приложений до сих пор не могут обеспечить полную поддержку PostScript Level 2. Основные преимущества PostScript 3:

– поддержка 4096 уровней на один цвет (12-бит на цвет, до того было 256 оттенков — 8 бит на цвет);
поддержка PDF (контроллеры PS Level 3 могут выводить PDF наряду с файлами PS Level 2);
– расширенная поддержка цветоделения (контроллеры PS 3 могут производить цветоделение изображений, заданных в оттенках серого или в шести цветах);

В Adobe с Вами не согласны. Как я уже писал - PDF/X-1a (а он существенно обрезан по функционалу от полного PDF в сторону PS) является подмножеством PS Level 3. Окончательное описание объектов для отрисовки внутри PostScript целиком зависит от тех "функций", которые "драйвер PS принтера" или генерирующая программа засунет в PS пролог. В PDF ввиду некоторой проприетарной закрытости (в отличие от PS) функции "растрирования/отображения" скрыты в блоке со stream (который по сути для PS Level 3 растрового процессора будет являться своеобразным прологом). То есть, с точки зрения PostScript интерпретатора - PDF это просто функция которая в указанном месте выведет содержимое PDF, как если бы это была функция из пролога и данные в самом PS файле

Слева PS Level 3, слева PDF/X-1a. Ничего не напоминает?
Слева PS Level 3, слева PDF/X-1a. Ничего не напоминает?

Я же прямо написал — что поддержка пдф была добавлена в пс, а не пдф стал пс поддерживать. Вы тоже самое мне процитировали.

Это смотря с какой стороны смотреть. Это же не отменяет факта, что PDF таки есть подмножество языка PS Level 3

ПДФ сложно назвать «подмножеством». Если пс — это реально язык программирования, со всеми необходимыми возможностями. То пдф — это очень сильно обрезанный вариант, по сути — это уже не «язык программирования», а что-то типа «языка разметки». Ни функций, ни переменных, ни операторов и тд тп

Ну почти так и есть. Это и есть сильно урезанный PS Level 3 из которого много что выкинуто. Будет обработан интерпретатором PS Level 3 как программа. То есть и является подмножеством языка для интерпретатора. Все эти PS типа словари << , >> и подобное.

Опять слева PS Level 3, Справа PDF/X-1a с декодированным потоками
Опять слева PS Level 3, Справа PDF/X-1a с декодированным потоками

Вообще у меня подозрение, что PDF в данном примере это некий байт-код для PostScript VM

Мммм…
Не байт-код, скорее, а что-то вроде json. Перечислены только параметры обьектов, но никакого выполняемого кода

Ничего что там обратная польская запись? m и l это и есть функции moveto, lineto и собственно параметры перед ними

Способ записи не имеет значения. пусть там хоть по спирали смещение вычисляется. Мув ту используентся как команда, свою функцию в пдф не написать. А в пс — можно

Я не пойму о чем спорим. Сильно урезанное. Ну нет функций а-ля пролог в PS через def, все завернуто условно в "замыкания" через stream. Но подмножеством он от этого быть не перестал, ибо выполняется PS-интерпретатором.

Уффф

Вот фокал — можно считать подмножеством фортрана. Потому что это яп, с натяжкой — но можно. Потому что фокал — это полноценный яп

А пдф — это не яп. Это не подмножество пс, в пс просто добавили его поддержку. 1 пс его не поддерживал, второй не поддерживал, а в третьем он стал подмножеством? :) Если бы в 3 пс добавили поддержку бейсика, он бы не стал подмножеством пс )

Блин, как будто вы не программист. А ну да, вы же ковырятель кривых макетов pre-press ninja (я и сам таким был).
Если код рисования примитивов PDF совпадает с кодом рисования PostScript - то является ли PDF подмножеством PostScript? ИМХО - ответ ДА.

Многие, в том числе вики, считают, что полная спецификация PDF это – наоборот, расширенный PostScript, я же говорил о PDF/X-1a, который предназначался для точного печатного воспроизведения, и из которого выкинули все ненужные для этого фичи полной спецификации типа аннотаций, js кода, мультимедиа и т.п. И который фактически полностью пересекается с PS Level 3. Давайте тогда считать, что PS Level 3 является подмножеством полной спецификации PDF, а PDF/X является подмножеством PS Level 3, кхе-кхе
На самом деле - ввиду того, что автором обоих является один из основателей Adobe Джон Уорнок, и если внимательно почитать историю создания PDF - то выяснится, что предшественник современного формата PDF назывался IPS (Interchange PostScript) и ноги растут именно из него

Является ли джсон подмножеством жс, если описание данных там полностью скопировано со структур жс? Просто оттуда выкинули всякие ненужные фичи, типа операторов и функций 8-)

Но операторы то в PDF есть, moveto/lineto и есть операторы, выполняющие действие над операндами. Так же как и в PS

Если там нет goto — это не яп! )))

скрыты в блоке со stream

Не "скрыты", а просто сжаты zlib.

Пропустите PDF через mutool -d, и вы увидите справа ровно то же самое, что и слева.

Не "скрыты", а просто сжаты zlib.

Надо проверить :-) Тем более.

PDF отлично открывается в Adobe Illustrator и там редактируется абсолютно все.

Вся эта магия отлично работает если PDF изначально был создан в иллюстраторе с включенной галочкой "Preserve illustrator editing capabilities". При этом размер pdf файла увеличивается в несколько раз из-за того, что фактически иллюстратор встраивает .ai файл в pdf. Если сохранить в pdf что-то нетипичное (конические градиенты, пунктирные обводки, паттерны, маски, сложное форматирование текста) в каком либо другом редакторе, то при открытии в иллюстраторе чуда не случится.

Ну и что же произойдет, если открыть в илле пдф, где не было этой опции? Он напишет «не могу открыть файл»?

Естественно — ничего такого не будет. Он точно также откроет векторный документ и в нем можно будет отредактировать абсолютно все. Чем я и занимаюсь уже больше 20 лет

Да, часть семантики будет потеряна, но документ будет редактируем

Он напишет «не могу открыть файл»?

Нет, просто часть объектов будут отображаться не как в оригинале, часть вообще пропадет.

Растровые изображения тоже отлично редактируемы хоть в ms paint, но для работы вы скорее предпочтете psd файл со всеми слоями и структурой, а не затирание пикселей ластиком и закрашивание кисточкой с пипеткой.

Другой пример подобного редактирования - WYSIWYG редакторы HTML. На выходе вы получаете файл который отлично выглядит на экране, но при попытке отредактировать что-то в текстовом редакторе или другом WYSIWYG редакторе вы получите лишь боль и страдания.

Да, часть семантики будет потеряна, но документ будет редактируем

Дело не в семантике, дело в том, что разные текстовые/графические/CAD редакторы обладают разным количеством фич и реализованы они по-разному, а все что требуется от PDF это обеспечить лишь внешний вид документа для его последующего чтения с экрана, печати на принтере/в типографии. Какой фарш был сгенерирован внутри PDF и насколько он хорошо поддается правке мало кого волнует.

Если это корректно созданный пдф — ничего слетать и пропадать не будет. Я еще раз подчеркиваю — что работаю в полиграфии. Некорректный пдф не только будет криво открываться в иллюстраторе, но и напечатается криво.

Потому, полиграфистов ОЧЕНЬ сильно волнует — как был сгенерен пдф и како фарш у него внутри. Тот же корел — только относительно недавно научился генерить правильные пдф, которые не подвешивали рип и не рассыпались на куски, когда их открывали в иллюстраторе или акробате

Если все сделано правильно — не будет иметь никакого значения, как и когда был записал пдф — он откроется в илле без всяких проблем. А если на печати выходит хз что — за такой файл бьют стальной линейкой по рукам и выгоняют нафик.

Есть всякие проги, которые криво записывают пдфы, для экрана сойдет. Особенно этим славится открытое и свободное ПО, где каждый развлекается кто во что горазд. Как документ для внутреннего пользования, где их просто распечатывают — без проблем, там другой уровень ответственности

Я еще раз подчеркиваю — что работаю в полиграфии.

В том то и дело. У типографий есть ряд жестких требований к файлам, и в случае их нарушения они ничего переделывать не будут, а потребуют нормально подготовленный для печати файл. Для этого, кстати, пишут целые мануалы, где описываю как экспортировать pdf из корела/иллюстратора/индизайна, в каком разрешении должен быть растр, какие объекты/шрифты нужно разобрать до кривых либо растрировать и т.д.

Вынырните из чудесного мира полиграфистов. Здесь бухгалтер Маша сделала годовой отчет в экселе и отправила его коллегам в pdf, как ей корректно создать этот pdf, чтобы вы могли внести в него изменения в илле? Или преподаватель Василий Петрович сделал красивую презентацию в power point и тоже сохранил в pdf. Как быть ему, если он решит обратиться к вам?

Как документ для внутреннего пользования, где их просто распечатывают — без проблем

Таким образом его и используют в большинстве случаев, а потом выяснятся, что надо что-то подправить, а как сделать это правильно знают лишь гуру проработавшие и полиграфии не менее 10 лет. Всем остальным приходится просто страдать.

Здесь бухгалтер Маша сделала годовой отчет в экселе и отправила его коллегам в pdf
//зажмурился от ужаса

Отправить исходный эксель — никак нельзя? Там вроде есть способ сгенерить отчет, удаляя их таблицы все формулы и оставляя чистый текст. Или даже в ворд

Отправить исходный эксель — никак нельзя?

А зачем, вы же сами сказали:

PDF отлично открывается в Adobe Illustrator и там редактируется абсолютно все.

Вот мы и пришли к выводу: не нужно редактировать pdf, нужно редактировать исходник в той программе, где он был создан. Ну если понесли что-то в типографию - извольте выполнить ряд требований: как и в какой программе файл бы создан и с какими настройками экспортирован.

Но там действительно все редактируется, нет элементов, которые нельзя передвинуть или перекрасить ))

Если файл не для печати, зачем его загонять в пдф?
Странные люди придумывают корп-стандарты

Но там действительно все редактируется, нет элементов, которые нельзя передвинуть или перекрасить ))

Ну представите вам нужно в начала таблицы на 10000 строк вставить пару строчек, как будите передвигать все это =)

Если файл не для печати, зачем его загонять в пдф?

Для того, чтобы его можно было посмотреть на любом пк/телефоне/планшете независимо от того есть там эксель или нет. PDF по сути является просто удобным контейнером как для растровой, так и для векторной графики и текста. Если вы можете раздербанить любой файл на составные части и собрать обратно из этого макет в илле, то это не значит, что для всех остальных это удобный способ редактирования файлов.

Тогда покласть его в какойнить гуглодокс и шарить ссылку. Оно будет видно везде примерно одинаково и не требовать отдельной проги для просмотра

PDF по сути является просто удобным контейнером
Не удобным )) Да и не предназначался для этого

Расшарить в гуглодокс нельзя, служба безопасности будет сильно ругаться и Маша отправится в декрет сильно раньше запланированного срока. Да и помимо экселя есть масса документов которые в гуглодокс не откроются (всякие CAD системы)

Отправлять джпегами! О них все знают, что «не редактируются» и приставать с такими задачами не будут ))

Уж лучше кривой PDF, чем джепег, вдруг, к примеру, понадобится произвести реконструкцию полиграфического производства, а из всех исходных данных только проект в PDF. С растром тоже можно работать, но времени займет заметно больше.

Программа распознавания одинаково работает с джпегами и с пдф

" Да и не предназначался для этого "

Ну здрасьте! PDF разрабатывался именно для того чтобы документ, открытый где угодно, чем угодно и распечатанный на чём угодно выглядел как можно более похожим на оригинал.

Вот на счёт " удобный" - тут да, очень можно поспорить.

Речь про контейнер, в который хоть видос положить можно

Если файл не для печати, зачем его загонять в пдф?


Если надо собрать том документации, где текстовая часть А4 из word, половина графики на разных форматах листа из autocad, вторая половина графики из старых томов/сканов, плюс расчеты из какой-нибудь внутренней/экзотической программы.
Нужно собрать это в один файл и отправить на объект, "на согласование" например, по эмейлу, и быть уверенным, что на старом компьютере с ХРшкой / 7кой, который там есть, всё нормально откроется.

В чем кроме пдф вообще такое можно сделать? И как собирать такие pdf типографически правильно?

P.S. А сейчас совсем без иронии: как в автокаде собирать пдф типографически правильно?

Печать на виртуальный принтер Адоб пдф — наиболее правильный способ, если надо из КАД. Можно собирать в Акробате из картинок, тоже очень хороший способ.

Вообще, мне понятен такой кейс, но надо подходить к нему не как к тестовому файлу, типа ворда. Там и правда можно все изменить и отредактировать, но это не текстовый файл, ещё раз

Если кто-то этого не понимает — надо донести, что редактировать можно и нужно только исходники, а потом собирать все заново

Печать на виртуальный принтер Адоб пдф

Вот догадывался, что есть какие-то нюансы)
А почему стандартный экспорт через "Публикацию" в автокаде, автокадовскими же библиотеками - не ок? Чем чревато?

Я о таком, если не в курсе - https://www.youtube.com/watch?v=v5OqRHNyTco

Можно собирать в Акробате из картинок, тоже очень хороший способ

Ну, нет. Нужен нормальный текстовый слой. Чтобы, когда тебе понадобится клемма XT3:15, её можно было найти через ctrl+f, а не глазами по всем листам бегать.

Если кто-то этого не понимает — надо донести, что редактировать можно и нужно только исходники, а потом собирать все заново

Охохоюшки. То есть опять же, надо учить заказчиков быть человеками, подрядчиков - быть человеками, смежников - быть человеками. И никогда не терять исходники, разумеется. Впрочем, ничего нового.

Я сталкивался, что экспорт в пдф из сторонней программы — может быть со странностями. Может Автокад все хорошо умеет — но всегда остается какой-то риск


Найти текст в картинке сложно ) Увы. Тогда ПДФ. Кстати, Автокад этот текстовый слой сохраняет? Там же куча подписей ко всем деталям


Налаживать процессы, когда прихолится работать с несколькими разными компаниями — всегда непросто (
В соседней теме обсуждают архиваторы и у меня всегда наготове лучи поноса тем, кто выкладывает рабочие файлы в 7з. На маке даже гуишного архиватора нет для этого формата… Скачал с облака 3 гига и развлекайся с ними как хочешь

Кстати, Автокад этот текстовый слой сохраняет? Там же куча подписей ко всем деталям

Да, всё сохраняет, на выходе векторная графика + текст, шрифты. Все печатается на принтере/плоттере пуля в пулю. Плюс адекватная работа с форматами листа, отличными от а3/а4 (виртуальный принтер - неудобно).

Может Автокад все хорошо умеет

Я почему и спрашивал: там есть несколько способов получить пдф. Рекомендуемый, и от разработчика, и по отрасли - функция "Публикация". Но можно и втупую на виртуальный принтер отправить.
А в самой печати/публикации есть несколько движков (или виртуальных принтеров, я так и не понял) на выбор. Есть несколько автокадовских, разных версий. Есть адобе пдф. Тыкал, разницы между ними не заметил. Для работы пользовался стандартным автокадовским.

Я не работал плотно с Автокадом, так — потыкаться слегка. Попробуйте разные способы и сравните, что лучше сохраняет семантику исходного документа и текст


Печать на принтер адоб — это чисто полиграфическая заморочка, чтобы потом в тираже обошлось без неожиданностей. Может встроенный в Кад экспорт — окажется более подходящим для ваших целей

Не уверен как, но far2l на маке может заходить и распаковывать архивы 7z. Видимо multiarc их поддерживает.

Мне попадались PDF, где символы вроде кирилица, а при копировании прилетали квадраты при вставке.

Иллюстратор может открыть слова как буквы в виде shape на разных слоях. При больших количествах объектов слоев будет сотни. Редактировать можно, но по факту это визуальное выделение и удаление старого и новый набор. Это сильно отличается от порядка и объема слоев, который задает человек при работе с документом

Мне попадался PDF, где часть символов -- текст, а часть -- фигуры, т.е. команды PS.

Программа, создавшая его, так творчески внедряет шрифт: редко используемые символы "инлайнит" прямо в страницу.

А если в Иллюстраторе открыть pdf от Корела? А многостраничный pdf? А pdf от банка/пограничников/финслужбы? По моему старому опыту тот pdf, что нормально открывается и печатается в акробате при попытке редактирования зачастую сильно искажается.

Что касается редактирования: обычные люди, когда говоришь им "да, можно редактировать" говорят тебе: "отлично, замени мне адрес ул. Мира 15 на переулок Малая индустриальная 14 (вход со двора)" И адрес этот будет находится посреди большого абзаца где-нибудь посередине большой текстовой страницы. И тут мы понимаем, что ни о каком переверстывании текста и речи быть не может, потому как все слова разбиты на буквы. А в сложных случаях все буквы превращены в вектр (а в совсем запущенных это будет растр). А даже если это "текст", то вполне может быть, что нужные вам буквы выкинуты из шрифта (для оптимизации размера pdf, по английски Subset). Так что в общем случае pdf не годится для полноценного редактирования.

PDF из Corel'а версий старше X4 прекрасно откроется в иллюстраторе. За исключением мелких косяков. Если взять именно X3-X4, то если PDF был сохранен 210х297 + Bleed Limit 3мм, то в иллюстраторе документ будет 216х303, но все объекты будут не по центру как оно было, в X:-3mm, Y:-3mm, хотя и Acrobat, и любой RIP, и даже Photoshop при растрировании рендерят правильно

Корел уже умеет делать правильные пдф, это сильно облегчило жизнь типографиям ))

Надо понимать, что это не формат для редактирования текста. Если кто-то требует от пдф редактируемости как в ворде — то это тяжелый случай. Боль и унижение. Приходится страдать. Но все сторонние программы, которые я пробовал, справлялись с такой задачей хуже, чем адобовские

И тут мы понимаем, что ни о каком переверстывании текста и речи быть не может, потому как все слова разбиты на буквы

FoxitPhantom точно это умел. Акробат, вроде, тоже, но не уверен.
Хотя, верстку и размтеку страницы изменить нельзя, такое редактирование сразу заметно. На серьезных документах я так не делал и другим не советовал. Но поправить какую-то мелочь, опечатку в строчке или подпись под рисунком вполне можно.

Как я уже написал выше - он его интерпретирует как программу. Поэтому какие-то фичи потеряются, вернее скорее всего превратятся объекты других типов, более низкоуровневых. Для примера можете сделать градиент и сохранить файл как EPS Level 1. Открыть откроете, только вместо градиента получите некоторое количество (заданное при сохранении в Gradient Steps) плашек, закрашенных разными цветами

вместо градиента получите некоторое количество (заданное при сохранении в Gradient Steps) плашек, закрашенных разными цветами
Или растр в клип-маске

Зависит от уровня PostScript, градиенты как градиенты появились в Level 3 если мне память не изменяет (до того, как стать кодером, я 10 лет работал Pre-Press Ninja в типографии, включая фотонаборы типа Scitex/Heidelberg)

А сейчас есть рипы, которые только первый уровень поддерживают? Кажется, даже самые отдаленные типографии принимают ПДФ, никто ПС уже не требует — а значит, это третий уровень

Ну первый врядли, хотя думаю и такие есть где-то в глубинках. Но вообще часто PDF ставят в спуск полос, и потом уже гонят в PS/PDF в зависимости от своего рипа. Благо какой-нить Preps умеет PDF лет 10-15 как

Ну да. Рынок диктует правила. Мало кто сейчас согласится пересылать пс на условных болванках, когда можно залить пдфы в облако и даже не сильно морочиться тонкостями его генерации. Даже джоб опшнс для дистиллера уже никто не выкладывает в ТТХ
Пдф может не открыться в илле или открыться с косяками, только если он сделан максимально криво, вопреки всем стандартам, с очень серьезными ошибками. Грубо говоря — это не пдф

В моей практике такие встречались очень редко, не каждый год. Возможно потому, что я работаю в полиграфии и мне не попадались файлы сгенеренные всяким очень сторонними софтом

онлайновые PDF-редакторы пока не поддерживают подпись документов с помощью цифровых сертификатов...

И не будут никогда. Потому, что тогда сертификат, приватную его часть, придётся отдать серверной стороне. И грош цена потом такому сертификату и такой подписи.

Технически, если очень захотеть – можно не выпускать сертификат за пределы работающего на стороне пользователя javascript. Но это больше для держателей онлайн-редактора надо, чтобы им не хранить у себя лишнего и не отвечать за это ("zero knowledge", очень разумная стратегия). Пользователю всё равно придётся довериться хозяевам сайта.

Так что, возможно, у "крупняка" такой функционал и появится.

Чтоб доверять такому сертификату, весь код который работает с сертификатом должен храниться и обрабатываться так же секьюрно как и сам сертификат. Ну т.е. не загружаться через интернет без проверки подписи, например. Сомнительное дело. А там на странице ещё чужие счётчики и баннеры со скриптами...

Чужие счётчики и баннеры со скриптами, положим, относительно легко изолируются. Но это опять же вопрос доверия.

А "не загружаться через интернет без проверки подписи" – вроде https должен обеспечивать. Но с этим ещё хуже, т.к. доверять придётся всей цепочке сертификации (вроде certificate pinning чуть снижает остроту проблемы, но всё ещё...)

Впрочем, повторяюсь, всё это вопрос доверия хозяевам сайта. И zero knowledge юзеру ничего не гарантирует – это лишь способ сервису не иметь технической возможности случайно слить юзерские данные.

Типовая задача, с которой приходилось сталкиваться (и которая на удивление сложно решается без полноценного редактора) – убрать из pdf фон (картинку, подложенную на каждую страницу под текст). Не подскажете, что из описанного это умеет?

Python умеет. Пакет PyPDF. Позволяет перебрать картинки, найти самую большую и грохнуть её из документа. Это, пожалуй, самая простая задача при манипуляции PDF.

Практика показывает, что некоторые офисные сотрудники предпочитают распечатать PDF, расписаться от руки — и отсканировать распечатку с подписью, сводя к нулю логику электронного документооборота. Если бумажная копия нужно только для сканирования, то это совершенно бесполезная трата бумаги и времени.

А разве это (распечатывать и сканировать) не обязательно, чтобы подпись была действительна? Если редактировать PDF, то видно, что подпись вставлена как изображение, т. е. это уже не означает, что человек поставил свою подпись сам, а мог кто-нибудь вырезать эту подпись из какого-нибудь другого документа и вставить.

Пример из письма от отдела кадров:

Просьба:

1) Распечатать согласие.

2) Подписать и прислать скан ответным письмом на этот адрес.

3) При очном присутствии в ИСП РАН принести оригинал в отдел кадров

А что мешает в том же акробате конвертировать pdf в изображение, вставить подпись в пэинте или фотошопе и собрать обратно в пдф или прям картинками вернуть назад? При желании в том же фотошопе можно имитировать признаки распечатки типа перекоса страниц, оттенков серого или линий принтера.

Распечатка не делает ничего «действительным» — можно так же документ с подписью, вставленной как изображение, распечатать в цвете и отсканировать. При хорошем качестве печати нереально отличить на скане, что там было напечатано, а что написано ручкой.

Эта система в любом случае держится на честном слове, как и многое в мире.

Для бумаги на которой писали ручкой можно делать подчерковедческую экспертизу: а там и исследование под микроскопом (с квадратными пикселями фотокопии) и нажимные характеристики и прочее...

В любом случае скан — это просто массив байтов и нет никаких принципиальных препятствий для генерации скана с «картинкой» подписи без признаков того, что она вставлена как картинка. Возможно, придется чуть-чуть попотеть.

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

Практика показывает, что некоторые офисные сотрудники предпочитают распечатать PDF, расписаться от руки — и отсканировать распечатку с подписью, сводя к нулю логику электронного документооборота.

Видимо, у каждого своя практика. Обычно в PDF "вклеивают" печати подписи, чтобы выглядело как скан документа. Это занимает 3 клика мышкой и 10 секунд времени. Распечатывать, чтобы поставить живую печать/подписать, отсканировать и обратно - это случай один на тысячу по каким-то особым причинам, для этого и doc формат сгодится.

А еще в PDF любят запаковывать крупные проекты контрактов, где куча мелких приложений с *дцать штук, и сам контракт страниц на 30+. Ну и еще PDF - универсальный формат для работы ЭЦП, что открепленной, что встраиваемой, 90% - это PDF.

А так, будь проклят тот день, когда появился PDF... Пользуемся Acrobat Pro (была попытка с Foxit, там еще хуже), если документ сложнее письма в две страницу, то работа превращается в минной поле. То вылетит программа, то символы перестанут отображаться (хотя при копировании они есть, просто не отображаются, помогает скопировать куда-то все из PDF, а потом от туда скопировать еще раз, и вставить обратно), то вся верстка слетит со всеми переносами от удаленного пробела посреди текстового блока. Из docx может какой-то кусок текста пустить вертикально, перекрывая все текстовые блоки и это никак не пофиксить. Но увы, с PDF часто приходится работать и дело это неприятное. При пересохранении документа или открытии только что закрытого, разметка может поменяться как ей угодно - если раньше была условно преамбула договора, состоящая из одного текстового блока, в котором было несколько предложений, то это может превратиться в три блока с делением по строкам (внезапно). У элементов, не занимающих всю ширину страницы, размер блока меняется от цикла луны и никак не реагирует на твои хотелки. Даже если ты руками поставил ширину на всю страницу, "умный" Acrobat "оптимизирует" его размер, а если, не дай Бог, рядом есть какой-то текст, он еще и объединит его в новый текстовый блок...
Извините, накипело. И увы, нет никаких сопоставимых аналогов, поэтому когда присылают договор страниц на 30 на рассмотрение с фразой "Вы там поправьте, что нужно и дополните" в этом формате, каждый раз хочется очень громко кричать.

Как-то странно вы работаете. Такие проблемы могут быть, если вы генерите пдф в какойнить левой проге. Если штатно печатать на виртуальный принтер — никаких проблем быть не должно. Я много лет работаю в пдф, ибо полиграфист и почти не сталкивался с подобными гдюками

Если все настолько плохо — работайте с документами через иллюстратор. Акробат очень неприятная прога, там все как чужими для хищников сделано, хуже только повер поинт…

Как-то странно вы работаете

Как и говорил, у всех своя специфика. Пустить на виртуальный принтер - отлично работает, почти всегда то, что нужно и это отлично. Но иногда надо редактировать уже имеющийся документ - какой-то отчет, договор с приложениями и т.д. И тогда начинается боль.

Такие проблемы могут быть, если вы генерите пдф в какойнить левой проге.

Опять же, частый случай в моей практике, готовим финальный научный отчет страниц на 100, присылают текст обоснования чего-либо в docx формате. Самый обычный текст, без таблиц, спецсимволов - просто текст. При переводе в PDF время от времени возникает такая "магия".

Если все настолько плохо — работайте с документами через иллюстратор.

Никогда не было опыта работы с ним, да и ПО как бы уже есть в компании и всех на другое ПО пересаживать, как-то не хочется. Да и как-то не представляю в иллюстраторе вставлять реквизиты и дополнять сметными подсчетами договор.

Могу еще добавить, что это такая особенность от Adobe ПО. Общался с дизайнерами, людьми кто работает в типографиях, кто занимается видео - все поголовно жалуются на продукты от компании в плане надежности и стабильности, а люди с опытом клавиши Ctrl+S прожимают на автомате каждые секунд 30.

Ну вот я такой — полиграфист со стажем 20+ лет. Один нюанс — все время на маке, можно считать, что без исключений. Илл глючит и вылетает примерно 1-2 раза в год, точно не больше 4. Шоп — еще реже

На винде еще мерзкий глюк рендеринга, когда в илле границы документа могут не совпадать, чисто визуально, с границами объектов, которые расположены точно один на другом. Всего на 1-3 пикселя, но это абсолютно невыносимо, просто мозг взрыаает
Да, тяжёлый случай…

Если досх делает странное — попробуйте пересохранить в ртф. Это старый формат и в него не пролезают всякие новомодные косяки. Ну и не пытаться работать с дос иди досх в так называемом «свободном по». Новые файлы они создавать могут, а с редактированием могут быть самые непредсказуемые глюки на ровном месте

Тут у мс вендорлок на 100% — вариантов нет, как и у Адоб с пдф

В илле можно переделать что-то исключительно глючное, пусть один человек научится это делать. А так — в акробате, увы. В илле можно поправить одну страницу хоть в 100страничном пдф и потом все нормально сохранится

В иллюстраторе править текст?

В PDF отлично можно редактировать если речь идет про макет чего-либо - брошюры, журналы, баннеры. Допускаю что этим вы и занимались. Если это какой-то монотонный длинный многостраничный текст, как в моем случае, то это жутко неудобно. Я в курсе, что для текста другие форматы и редакторы, но увы - есть некоторые корпоративные стандарты некоторых заказчиков, поэтому приходится работать с текстом внутри PDF. И можно собрать весь букет - текст между страницами адекватно не перенести, если после добавления он на одну уже не помещается, или место для подписи не помещается и тогда надо изменить переносы, что тоже сложно. В какую-нибудь таблицу в два клика новую строчку не добавить, и уж тем более куда-то посреди нее не вставить. Вся таблица это тысяча мелких черточек "-" и "|", которые внешне выглядят как цельная таблица, но ей не являются. Текст не влез в ячейку - двигай все руками. Буквы "ё" и "й" периодически тоже дают незабываемые ощущения, когда верхние части каким-то чудом становятся отдельным текстовым блоком, который оказывается как-то за слоем текстового блока привязывается к позиции остальной буквы и может улететь на несколько пикселей куда-то в сторону, или налезть на другую верхнюю строку и "склеиться" с ней. Нумерация статическая. Если ее не было изначально и делалась в PDF - ок, можно просто обновить, а если ее в свое время экспортировали из word, то для PDF - это просто цифры, так как не умеет в колонтитул и единственный вариант, это просто руками добавить новый номер и везде подправить дальше постранично. Либо удалить все руками и сделать нумерацию через PDF - +- тоже самое выходит. И я могу долго продолжать...

Поверьте, я достаточно наигрался с PDF, чтобы вдоволь с ним "налюбиться". Не 20 лет, как у Вас, но мне восьми хватило.

Я человек капризный. Если меня просят что-то серьезное поправить в пдфе я или прошу исходник, или много денег или отказываюсь

Странные люди придумывают корпоративные стандарты, ведь пдф это не текстовый документ. Могу только посочувствовать

Когда приходилось пиратить электронные книжки из пдф, я просто скармливал их файнридеру. Но там ни сертификатов, ни электронных подписей, ессно

Так и мы просим, нам их и платят, потому что некоторые таке "законодатели" стандартов черпают их из недр в неограниченном количестве...
Поэтому улыбаемся и машем ручкой, молча правим очередной документ и терпим.

Если это всех устраивает — вай нот? :)

Перевели почти полностью контрагентов на так называемый гибридный PDF (внутри PDF сохраняеся ODF (ODT/ODS), т.е. Open Document Format, являющийся стандартом в РФ). Такой PDF открывается в OpenOffice|LibreOffice Writer именно как текстовый и правится как угодно.

Плюсы:

  • рендер в PDF у OpenOffice|LibreOffice безупречен, говорю как со-директор типографии

  • ничего не слетает и находится там где оно было отформатировано или предписал Стиль (а Стили в OpenOffice|LibreOffice сделаны намного удобнее чем в MSO Word). OpenOffice|LibreOffice Writer полностью лучше чем MS Word, готов это доказать. С Calc/Excel готов доказать обратное.

  • механизм ЦП в LibreOffice позволяет подписывать ЦП гибридный файл PDF, в т.ч. ГОСТ-овскими алгоритмами, об этом на Хабре неоднократно писалось. Можно реализовать "видимую" подпись. Макросы на 5 языках программирования могут факт подписания регить в БД (в бизнес-процессах важнее не валидация подписи и документа, а сам факт подписания).

  • Excel/Calc файлы тоже упаковываются в гибридный PDF, но тут нет такой насущной потребности почти ни у кого. Тот же OpenOffice|LibreOffice прекрасно инкапсулирует через DDE многостраничные таблицы в текст, со сквозными строками заголовков и базовым форматированием (минимальным, но достаточным для спек, договоров, приложений итп).

Минусы:

  • чтобы перешли все контрагенты - пришлось пообещать по таким договорам платить на 3 дня быстрее (якобы это время уходило на правку PDF-ов). Сработало, но платить быстрее не стали, но может на 1,5 дня быстрее. Однако все привыкли (к удобному привыкаешь быстро) и благодарят. Когда слышу что у кого-то офисные суициды и выходы в окно от работы в OpenOffice|LibreOffice - улыбаюсь росту офисных сказочников, не иначе прокачивают скилл стори-теллинга.

  • файлы на +25 КБ/page больше по размеру

Особенности:

  • чужие PDF, обычные, не-гибридные, в виде картинки/скана, с кривой спецификацией от МФУ, - для нас, по сути, "испорченные" PDF - в OpenOffice|LibreOffice можно лишь подписать ЦП, но править - нет. Точнее впечатать пару слов можно (PDF с текстом импортируется в OpenOffice|LibreOffice Draw как построчный набор сотен текстовых блоков, не всегда выглядящих 1:1, но половина людей разницу не видит). Но это все-таки заметно и не нужно. Лучший способ борьбы с такими испорченными файлами - заставить контрагента вносить правки самому. На пятый раз он согласится, и через полгода будет сам с удовольствием "гибридить".

Забавно, но буквально недавно пришлось редактировать как раз форму заявки на шенгенскую визу) Спас trial на Acrobat Pro.

Попробуйте еще PDF X-Change Editor (от Tracker Software). Мне он почему-то показался поадекватнее Акробата, им и пользуюсь.

Тоже долго его юзал, но на маке нет. В плане редактирования это лучший инструмент

xournal для вставки автографа, okular для быстрых пометок, pdflatex для правки (всегда можно замазать и напечатать поверх)

А вот подскажите чем лучше смотреть и немного комментировать PDF в следующих условиях:


  • несколько устройств Android
  • Размер экрана — от 6" до 24"
  • отображатся должна либо одна страница если экран мелкий либо две (либо целое число). Не полстраницы, не 2.5 страницы.
  • PDF могут быть без текстового слоя или просто графика может быть важной
  • сохранение текущей позиции между открытиями одного и того же файла
  • синхронизация текущей позиции между устройствами для файла с тем же именем.
  • (желательно) аннотации и выделения должны синхронизироваться между копиями того же файла на разных устройствах через WebDAV/Dropbox/GDrive.И экспорт отдельно аннотаций желателен.

Xodo Docs подходит по условию про целое количество страниц но вот не умеет в синхронизацию.
Moon+ Reader Pro подходит с синхронизацией но любит открывать дробное количество страниц

Я на мобильном Phantom'e всё это видел, синхронизации документов с аннотациями в облаке - точно есть. Но платно. Сам таким функционалом не пользовался.

Как смотрелка - фоксит прекрасен.

Когда лет 5 назад на фрилансе активно искал новые заказы - часто встречалось "скачать pdf с сайтов, распарсить, достать цены-товары и тп". После всего лишь двух таких клиентов у меня установка себе на слово PDF в таких задачах - "СРАЗУ НЕТ И НЕ ДУМАЙ". Потому что парсить эту <censored> фигню - это бесполезная трата времени (и денег). Не знаю чем генерируются эти прайсы, но даже если оно внешне выглядит простой аккуратной табличкой - внутри оно может быть чем угодно. Может быть просто картинка текста. Или, например, буквы в документе идут не в строку, а блоками в столбец по 1-2 буквы. При попытке прогонять все это через OCR иногда могут возникать ошибки распознавания (шрифты или еще что-то влияют, либо близко столбцы стоят и слова сливаются), а ошибки часто недопустимы.

Пришлось писать какие-то костыли с вычислениями расстояний между блоками и сравнением их позиций. Времени ушло куча.

В итоге с PDF предпочитаю не работать вообще. Если генерировать отчеты еще как-то можно (и то верстка хоть где-то но поплывет в итоге, а инструментов править ее еще меньше), то читать оттуда - сразу нет, спасибо.

Пример таблички

Просто первое что нашел, но были и еще проще на вид

Я тоже на фрилансе брал несколько подобных заказов, если в приложенных примерах файлов был текстовый слой. В результате к OCR никогда не приходилось прибегать.
Если есть текстовый слой, можно попробовать утилиту pdftotext, в частности с параметрами −layout/−table и затем парсить уже текст.
Распознавание позволяет сохранить структуру документа

Под структурой документа понимаете layout (расположение текста на странице) или что-то другое (например, раздел/глава)? По-моему, расположение текста на странице утилита определяет более-менее корректно.
Нашел старый файл, из которого был извлечен текст с параметрами -table -fixed 3


Пример извлечения текста

         Events Since Last Reset (22-OCT-2015)

               There are no events to display.

         Battery                    Good

               Longevity Remaining                               >5.0 years

                @ Current Pacing Percentage(s)

               Magnet Rate                                        100 min¯¹                         Elective Replacement (ERT)                                     Beginning of Life

                                                                                                                End of Life (EOL)                                  (BOL)

         Leads Data                                                           Implant                           Previous Session                          Present Session

                                                                          08 JUN 2015                                                                        28-OCT-2015

            Atrial

               Intrinsic Amplitude                                                 1 mV                                   0.7 mV                                 N.R. mV

               Pace Impedance                                                  400 Ω                                     290 Ω                                    300 Ω

               Pace Threshold                                               <0.50 V                                                                   0.2 V @ 0.4 ms

            Ventricular

               Intrinsic Amplitude                                               10 mV                                    9.1 mV                                 N.R. mV

               Pace Impedance                                                  430 Ω                                     300 Ω                                    300 Ω

               Pace Threshold                                               <0.50 V                                                                   0.7 V @ 0.4 ms

         Settings

            Ventricular Tachy Settings

               Ventricular Tachy Detection                                      On

                 Rate                                                          170 min¯¹

                 Duration                                                          8 cycles

            Atrial Tachy Settings

               ATR Mode Switch                                                     -- min¯¹ --

            Brady Settings                                                                            Pacing Output

               Mode                                                          VVIR                        Atrial                                            -- V @ -- ms

               Lower Rate Limit                                                  60 min¯¹                Ventricular                         AUTO 1.2V @ 0.40 ms

               Maximum Tracking Rate                                               -- min¯¹           Sensitivity

               Maximum Sensor Rate                                             130 min¯¹                 Atrial                                                      -- mV

               Paced AV Delay                                                -- - -- ms                  Ventricular                                   AUTO 1.48 mV

               Sensed AV Offset                                                    -- ms              Lead Configuration                                         Split

               A-Refractory (PVARP)                                          -- - -- ms                  A-Pace                                                      --

               V-Refractory (VRP)                                              250 ms                    A-Sense                                                     --

                                                                                                         V-Pace                                            Unipolar

                                                                                                         V-Sense                                             Bipolar

         Daily Measurement

                                                                           Atrial                                                         Ventricular

                     Date                                 Amplitude                 Impedance                   Amplitude                 Impedance                   Threshold

                                                              (mV)                         (Ω)                      (mV)                         (Ω)                        (V)

               27-OCT-2015                                     N.R.                       N.R.                       N.R.                       290                         0.6

               26-OCT-2015                                     N.R.                       N.R.                       N.R.                       280                         0.7

               25-OCT-2015                                      0.3                       250                        N.R.                       280                         Off

                                                                                           Page 1 of 5
Я имею в виду, что современные версии файн ридера сделают из скана или пдфа — вордовский документ, с таблицами, шрифтами (если смогут подобрать из имеющихся). Будет почти полная копия исходного документа, которую программа, фактически — нарисует заново. Но он будет редактируем, таблицы будут таблицами и все такое. Они хорошо в этом наловчились

После всего лишь двух таких клиентов у меня установка себе на слово PDF в таких задачах - "СРАЗУ НЕТ И НЕ ДУМАЙ". Потому что парсить эту <censored> фигню - это бесполезная трата времени (и денег).

Очень даже полезная, для нас, трата денег заказчиком =) Если за эту <censored> фигню не возьмётесь вы -- значит, заказчик понесёт их мне. У него-то выбора нет: данные поступают именно в виде кривых PDF, и придётся либо заплатить кучу денег нам за распознавалку, либо постоянно платить деньги сотрудницам, которые будут перепечатывать их вручную.

Ну видите ли.. Все зависит от стоимости работы, конечно. Очень сложно объяснять заказчику что, например, вытаскивать раз в неделю цены из прайса будет стоить $700+, потому что надо несколько дней писать и отлаживать сложный парсер для кривого PDF. Заказчик видит простую табличку и не шарит в программировании. А в соседней вкладке ему стучится загорелый улыбчивый парень Нгуен, который обещает за $50 все сделать, но по факту он будет раз в неделю заходить на страничку и втихую руками вбивать этот прайс в базу. Это в лучшем случае. Сами знаете, наверное, какие индусы там пасутся.

Работа сделана? Ну наверное. Дешево? Да. Качественно? Нет и лично меня такой результат не устроит. Я вполне не против чтобы этот заказчик ушел к вам, но я для себя выводы про PDF сделал уже давно.

Это в большей степени вопрос маркетинга, а не технический =) Заказчики не раз обжигались на Нгуенах по $50, и многие готовы заплатить больше -- если их убедить, что разница будет не только в цене, но и в результате. Кроме того, такую тулзу можно написать один раз и продать десятерым (или ста) заказчикам, потому что вбивать в базу цены из кривых PDF надо чуть менее чем каждому коммерсанту.

Заказчики не раз обжигались на Нгуенах по $50
Ха ))
Ну вот только сейчас мне пришел макет, где криворукий фрилансер сделал белый текст пантоном, но назначил ему нулевую плотность. Формально — текст выглядит белым, фактически — за такое надо дать по пальцам стальной линейкой ))

Вы, наверное, еще можете отказаться что-то печатать из такого файла и потребовать принести оформленный правильно. А на фрилансе разбрасываться недовольными заказчиками не очень полезно.

Да нет, моя задача как раз — делать правильные файлы из всякого мусора ))

Но такому фрилансеру ставится галочка «по возможности не обращаться». Ибо хз что там всплывет в очередном его творении, насколько сложно/невозможно потом это переделывать и какими проблемами может грозить впоследствии

В моих историях такого вагон и маленькая тележка.
К примеру красный оверпринтом поверх черного в водочной этикетке. С макета сделали цифровую цветопробу и все выглядело ок, вывели на машину, печатник затупил и увидел, что этикетка вместо красной - грязно коричневая на 2000-м листе тиража. В итоге, 2000 листов в макулатуру, 4 формы в метало-приемку, правка макета, новый спуск полос и новый вывод. И потеря смены печатной машины

Странно
Цифровая проба должна была показать оверпринт

Цифровая нет, мы же не знали что там оверпринт, соответственно и те, кто делал пробу тоже галочку не включили :-)

Ну тогда — ай-яй-яй вам. Оверпринты проба обязана показывать
Это для пантонов надо докупать плагин к рипа за 5 килобаксов, а оверпринты то…

Все так, но, во-первых, объем работы часто становится окончательно понятен уже после согласования цены, поскольку многие очень не хотят раскрывать детали всем желающим. Вы сами знаете наверняка же, если этим занимаетесь. "Нужно скачать файлик с сайта и положить в базу" - это еще не самое плохое описание. Даже если файлик приложен к задаче - внешне он выглядит просто и безобидно. Какие фокусы там всплывут потом - хз.

А универсальную тулзу написать для этих PDF - я тоже пас. Мне хватило того раза когда я кроме вертикальных блоков текста еще высчитывал координаты полосочек таблицы, потому что иногда текст залезал под соседний столбец и был невидим.

Уже лет пять прошло, а воспоминания об этих увлекательных моментах исследования глубин формата PDF всплывают до сих пор. Забирайте себе :)

Было у меня и такое.
В итоге:


  • Руками тюнить парсер под каждый источник.
  • Если текстовый слой все же есть — pdftotext а дальше уже пробуем парсер под конкретный источник. Не вышло с конкретным файлом? пусть. Но файл отложим — может формат сменили.
  • Если текствого слоя тупо нет (или предыдущим способом парсер ничего хорошо не вышло) — OCR и опять парсер.
  • Ошибки — ну пусть, для задачи можно, пока их мало. Но если часто — допиливаем парсер для этого источника.

Странно, что никто не упомянул ABBYY FineReader PDF. Существенно дешевле творения от Adobe, при этом позволяет еще и распознавать текст на графических файлах. Используем уже несколько лет, все устраивает.

То, что добавили в Firefox 106 нельзя назвать редактированием. Он может только добавлять к PDF-файлам комментарии или графические метки. Тоже самое может бесплатный Adobe Acrobat Reader, да и множество других бесплатных просмотрщиков типа foxit reader.

Вернулся в статью, чтобы оставить такой же комментарий. Увидел изначально и обрадовался т.к не замечал этого, полез проверять и всё что смог найти: кривое добавление текста и такое же рисование. Пошёл гуглить, оказывается это всё и это действительно называют редактированием… :facepalm:

«Редактирование» = «внесение изменений». Добавление текста и рисование — это как раз «внесение изменений», то есть «редактирование».
Да, это лишь подмножество всех возможных операций, но нигде не была заявлена мифическая «полная поддержка всего» (которая для PDF в принципе невозможна для произвольных документов). Как по вашему это должно называться, если не редактированием? Мне правда интересно. В контексте этого вопроса — назвали бы вы MS Paint времён Win XP графическим редактором, зная что в те времена уже существовал на порядки более мощный Photoshop, со всякими слоями, кистями, масками и прочими фильтрами, о которых Paint даже не догадывался?

Добавление аннотаций?

Если текущий функционал это лишь маленький подвид чего-то, то и нужно давать корректное название, а не использовать название всего вида. Не стоит вдаваться в крайности или приводить некорректные аналогии. Если нельзя изменить текст pdf, то сложно сказать, что программа умеет в «редактирование pdf», гораздо правильнее будет упомянуть инструменты, которые доступны. В данном случае это максимально простейшие рисование и добавление блоков текста

До недавнего времени это называлось (и называется в большинстве программ) добавление комментариев или аннотаций. В Acrobat Reader этот функционал доступен давно, лет 10-15.

мне нравится сервис pdf2go. Не помню, как там с проставлением подписи, но когда-то я редактировал по-быстрому pdf именно там.

Если вас устраивает передавать документы третьим лицам, то да, хороший ресурс. Правда, я знаю пару админов, короые уменьшили объем фишинговых писем после запрета подобных онлайн-сервисов.

Я не так давно открыл для себя Master PDF Editor. Отечественный производитель, однако. :)

НЛО прилетело и опубликовало эту надпись здесь

Я недавно рецензировал статью (скомпилированную pdflatex) и решил аннотировать файл по мере чтения. В macOS Preview выделения исчезали практически через раз, особенно в формулах и легендах графиков. В Adobe Acrobat Pro добавление пометок вроде нормально работало, но удаление немедленно ломало файл и его невозможно было больше сохранить. В итоге добавлял аннотации в Adobe Acrobat, а убирал по необходимости в Preview. Другой рецензент статью распечатал и разметил вручную, после своего опыта язык не поворачивается сказать, что с этим подходом что-то не так. (Сейчас перепроверил и, похоже, у Acrobat нет проблемы с удалением аннотаций, если все они сделаны в нём же, тогда не подумал переделывать их все с "чистого" файла.)

Более того, немного раньше попалась другая статья, где полупрозрачные цветные области на графике просто не отображались в Preview и были видны только в Adobe Acrobat, что уже совсем безобразие. Ладно ещё, что редактирование PDF — боль и страдания, но в надёжном отображении вроде весь смысл формата. А если бы я был на Linux, где Adobe нормально не доступен? (Хотя в Firefox и Chrome этот пример показывается нормально.)

ilovepdf очень простой сервис, за секунды можно выполнять разные действия (сжатие, конвертация, подпись и др)

Не секурно…

Прошу совета. Есть ли способ подключить к pdf-документу гугл-переводчик, чтобы читать английские pdf-тексты по-русски?

Если обобщить задачу
qtranslate и Crow Translate
бесплатные приложения позволяющие переводить любой текст на экране, что можно выделить.

В Яндекс Переводчик можно просто вставить ссылку, он переведет. Работает, как с переводами сайтов.
С гуглом сейчас проверил - не получилось.

Вопрос(ы) к полиграфистам:

А адобовские шрифты ещё живы, используются, в pdf вставляются? PostScript в них - полный ЯП, или тоже обрезанный?

Даже трутайп уже не актуален, всем otf подавай

Зарегистрируйтесь на Хабре, чтобы оставить комментарий