Как стать автором
Обновить

Как формат PDF перестал ассоциироваться с бревном

Время на прочтение3 мин
Количество просмотров2.4K
Пролог

На работу привезли в рамках акции новые программы для документооборота — корпоративные профессиональные версии. Они нам программы — мы им свое частное и публичное мнение. Ставить их, к слову, вместо не совсем лицензионных версий этих же программ от Adobe. Соответственно, задачи, которые возлагаются на программы — работать с PDF (конвертировать их по-всякому, и т.п.), сканировать документы и распознавать символы. Меня посадили с этим ПО разбираться — вдруг там все на китайском, и вообще.

Действие первое, второе и третье

Привык к тому, что PDF — это как область с наименьшей энтропией, только для документов. С ним самим кроме конвертации ничего особенно сделать нельзя, и это, например, позволяет передавать в PDF любую информацию, в неизменности которой можно быть более-менее уверенным. Так вот, в пух и прах мои представления.
Итак, сделал для себя ряд интересных выводов:

Что PDF можно конвертировать в любые форматы и таким опосредованным образом изменять, уже в виде Doc, Xls и так далее, — этим никого не удивишь. Это PDF Converter, естественно, умеет (одна из 3 программ, которые дали тестировать).

— Функция «Drag-n-Drop» (по-русски «перетаскивание») в программе PDF Converter порвала шаблон на корню. К примеру: вам нужно к 20 страницам PDF добавить 5 страниц текста Word, в середину текста. Решение: берете и перетаскиваете. Вот так вот запросто.

— Еще оттуда же:
У вас есть бланк, бумажный. А нужна такая же форма, но электронная и заполняемая. Решение: берете и сканируете в PDF Converter-е ваш бланк, и он автоматически превращается в заполняемую PDF-форму, которую можно заполнять, сохранять, слать по почте, и т.д.

— Нужно исправить закравшуюся ошибку, или примечание поставить, или картинку загрузить? Просто открываете PDF в программе и исправляете, ставите, загружаете. Как с .doc абсолютно.

— Нужно найти конкретный документ, или что то в конкретном документе? В Converter есть утилита Looks-Like-Search (от Google), которая помогает найти в PDF ключевые слова, и также найти документ по содержащимся ключевым словам, фразам.

Последнее, что в этой программе порадовало — форматирование при любых конвертациях в любые поддерживаемые форматы блюдется свято.

Это был PDF Converter. Вторая программа называется OmniPage. Она, номинально, для сканирования документов и распознавания символов. Фактически может тоже несколько больше:

OmniPage:
— Распознает очень хорошо, без шуток. Никаких промежуточных сохранений бумажного документа при этом делать не надо — сразу сохраняет распознанное (текст, изображение, иероглифы, короче, — файл) в выбранном формате, например, Word. Экономия времени на лицо.

— Задача: вам надо собрать определенные данные из большого количества форм/бланков/документов, например, телефоны сотрудников. Программа автоматически сделает это за вас, если задать критерий отбора (телефон/инициалы/адрес/дата договора/организация, и т.п.). Отобранные данные будут сохраняться в Xls, формат также может быть изменен вручную.

— Можно загружать и распознавать файлы из DropBox, EverNote, SharePoint и еще каких то не настолько популярных в россии сервисов хранения данных.

— Очень понравилось: создание аудио-файлов из электронных и бумажных документов. Т.е. наряду с распознаванием символов используется технология Text-to-Speech (Текст-в-Речь). Качество речи идеальное, т.е., если в документе нет грамматических ошибок, или если он не про квантование полей (хотя может и такой словарь в здешней базе имеется), то за один клик вы из документа получаете аудио-дорожку с надиктованной электронным, но вполне приятным и даже интонированным голосом.

— Из прозаичного: сканирует одним кликом, быстро конвертирует и распознает. Программа удобна при работе с большим количеством документов.

Третье решение — PaperPort. Классический файловый менеджер с упором на облачные сервисы (GDocs, SilverLight, проч.), чтобы документы можно было достать отовсюду, с iPad например. Очень полезен, если в офисе большое количество сканирующих устройств — централизует и заметно упрощает документооборот.

Эти 3 программы от компании Nuance, так что и ссылки по продуктам на их сайт. У нас они продаются через Softline.

Эпилог

До этого работал с аналогичными приложениями от ABBYY и Adobe — во многом похоже, так что я постарался упоминать функции, частично или полностью могущие называться «ноу-хау». Не знаю, почему именно на Nuance пал выбор конкретно в нашем случае, но подозреваю, что дело в цене корпоративной лицензии.

Продукты, разумеется, претендуют на вполне определенную конкуренцию с никому не известными решениями от компаний на «A», однако, вопреки первоначальному скепсису, оказались с речевым колоритом и с отраслевой изюминкой. В общем, неожиданно качественно, откуда не ждал.
Теги:
Хабы:
Всего голосов 63: ↑26 и ↓37-11
Комментарии22

Публикации

Истории

Ближайшие события

19 августа – 20 октября
RuCode.Финал. Чемпионат по алгоритмическому программированию и ИИ
МоскваНижний НовгородЕкатеринбургСтавропольНовосибрискКалининградПермьВладивостокЧитаКраснорскТомскИжевскПетрозаводскКазаньКурскТюменьВолгоградУфаМурманскБишкекСочиУльяновскСаратовИркутскДолгопрудныйОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
24 – 25 октября
One Day Offer для AQA Engineer и Developers
Онлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань