niccolo2019 1.Чем FR15 лучше для создания таких форм чем бесплатный ОО?
Сравнивать не совсем корректно, так как они используются несколько для разных целей.
2.На стороне клиента — чем такие формы, кроме наглядности и необходимости тяжеловесного Адоб ридера (ибо простые гляделки не поддерживают заполнение форм) лучше простой текстовой формы, которую можно заполнить на коленке в любой ОС, и гляделки...
Мы рассказали про плюсы PDF-форм в статье. В первую очередь, лучше тем, что PDF-форма будет одинаково отображаться в любой операционной системе, любой программе и на любом устройстве.
1.Данные для обработки/передачи, если не требуют защиты, должны иметь МИНИМАЛЬНО достаточный размер и самую широкую поддержку другим софтом, включая манипуляции с ними… (размер/структура пакета FR, возможность обработки в стороннем приложении — Пайнтдотнет, Кромсатор, Скантайлор, Фотошоп для особо талантливых/ быстрого реимпорта отдельных страниц пакета).
Все зависит от сценария работы и решаемой проблемы. Спасибо за обратную связь. Передали информацию продуктовой команде FineReader PDF.
2.Действия, сделанные в программе пользователем, должны без проблем переноситься вперёд и НАЗАД по версиям...(Я так понимаю, по Аббийской традиции, FR14-12 пакеты FR15 c расставленными блоками экспортировать не могут)
Поддержка новых технологий и фич не всегда позволяет поддержать обратную совместимость.
3.Программа должна иметь минимальный размер и ЗАГРУЖАТЬСЯ И работать на одном железе ЗАМЕТНО быстрее старой версии. Сравнивая размер и функционал 8 и последующих версий — размер FR растёт в разы быстрее…
Мы работаем над этим. Размер зависит от многих факторов. В частности, увеличение размера нового FineReader PDF связано с переходом на новые гибридные технологии распознавания с использованием нейросетей. Повышение качество OCR для нас является приоритетом.
4.Программа от версии к версии должна делать лучше свою основную работу, а не растекаться по смежным областям, где нужно конкурировать со сторонним софтом, гораздо лучше заточенным на сторонние функции.
Основная функциональность FineReader PDF — это работа с PDF, поэтому создание и редактирование PDF-форм — это не что-то отвлеченное, а расширение наших функциональных возможностях в распространенных PDF-сценариях.
5.Такие вещи надо описывать детально в Справке/Преимуществах новой версии, а не на маргинальном для большей части простых пользователей Хабре.
Вообразим, что мы с вами начертили прямоугольник и залили его заливкой. Мы сделали это в векторном редакторе. Прямоугольник у нас красного цвета, заливка красного цвета. Мы вывели результат в PDF.
PereslavlFoto К сожалению, мы не имеем точного представления, как LaTex вставляет к себе PDF-документ. PDF-документ — это многослойная структура, и контент страницы — это только его часть, пусть и наиболее существенная. Вероятно, LaTex умеет парсить документ и извлекать этот контент, может, даже преобразует в свой язык. Таким образом, если операндов цвета не встретилось, он сможет использовать свои операнды.
У Вас достаточно специфичный сценарий, вряд ли какая-то программа сможет делать именно то, что вам нужно: так как в PDF отсутствие цвета означает дефолтный черный цвет, многие редакторы все равно его явно запишут в поток команд.
Передадим вас запрос продуктовой команде FineReader.
Я брал decompressed PDF, стирал команды окрашивания векторных рисунков и исправлял bounding box. Байтовое смещение нарушалось, однако это не имело значения.
PereslavlFoto Большинство просмотрщиков умеют восстанавливать байтовые смещения объектов, если они не очень большие. При таком редактировании документа главное не перестараться...
A propos, не знаете ли, какой программой можно оставить в PDF векторный рисунок (обводку и заливку), однако убрать переключения цветов? Задача в том, чтобы переключать цвет не внутри PDF файла, а до того, как он начнёт выводиться. То есть вот в редакторе изначально была обводка и заливка чёрного цвета, а мне надо, чтобы была обводка и заливка незаданного цвета.
PereslavlFoto Уточните, что значит "чтобы была обводка и заливка незаданного цвета"? То есть она как бы была, но прозрачного цвета? Или все-таки ее не было? Или чтобы она была такого цвета, как векторные примитивы, нарисованные до нужного объекта? PDF дает простор для воображения.
В принципе, любую из этих операций можно сделать как вы уже делали, в блокноте. Но как выразился quwy, можно поправить что угодно, вопрос в том, насколько это сложно.
PereslavlFoto Нет. Возможно, вас смутила фраза про объекты и смещения? Это характерно абсолютно для всех PDF. Любой PDF можно представить и как compressed, и в обычном, читаемом виде (decompressed). Вопрос только в размере файла, который, очевидно, в сжатом состоянии будет меньше.
Мне доводилось редактировать PDF в текстовом редакторе. Проблемы не возникали.
PereslavlFoto Скорее всего, вы просто меняли один символ один на другой, и при этом сам документ не был заархивирован. Тогда вы понимаете, что редактируете, и как это сделать, не нарушив байтовое смещение PDF-объектов. Но это возможно в очень редких случаях...
Вы уверены? Википедия, вот, приводит пример кода на этом языке:
quwy Пример, который Вы привели, не похож на PDF. В PDF такие команды будут выглядеть так:
BT
72 500 TD
/F1 200 Tf
(Hello, world!) Tj
ET
Как уже выше было сказано, PDF не целиком состоит из таких команд, это всего лишь команды для отображения контента. Помимо него, в PDF записано еще много чего интересного. Кстати, если объекты в PDF запаковать каким-нибудь кодеком, то он станет гораздо больше похож на бинарный файл.
Это не результат компиляции, а исходный код программы. PDF — это язык программирования PostScript, из которого убрали некоторые конструкции (например, условия и циклы). Что впрочем не делает работу с ним ни капли проще.
eumorozov Как выше сказано, это действительно не результат компиляции. Но отождествлять PDF с PostScript тоже неправильно. Нужно понимать, что PDF-документ — это набор объектов, расположенных на фиксированных местах (смещении, offset) в файле. Объекты могут иметь разные назначения. Один из объектов в документе — это контент страницы. Такой объект имеет поток stream, в котором записан поток команд. Вот как раз такой поток команд и определяет видимую часть страницы. Правила записи потока команд действительно взяты из PostScript и имеют много общего.
PDF — это результат компиляции набора инструкций, отсюда и проблемы. Редактировать PDF так же сложно, как редактировать EXE.
quwy Тут вынуждены не согласиться. Результатом компиляции должен быть набор инструкций, который сможет выполнять какая-то программа (например, PDF-viewer). Но это не так. PDF-редакторы читают и пишут PDF, не переделывая его в промежуточный набор команд.
Увы, в LibreOffice едут шрифты, рамки, и все остальное. Пробовал редактировать примитивный PDF из двух страниц. Понять смысл можно, но выглядит всё ужасно. До сих пор не существует приличной альтернативы Acrobat'у. :(
Статья как раз о том, что ABBYY FineReader PDF умеет редактировать текст и делает это теперь не хуже Акробата. Попробуйте сами: триал можно скачать здесь
Compreno лежит в основе технологий ABBYY для решения задач Natural Language Processing. Если вы читаете новости про NLP-технологии ABBYY, то значит, что здесь используются технологии анализа и понимания естественного языка.
Нет, мы продолжаем использовать Compreno. Эта технология работает в составе NLP-возможностей наших продуктов. Например, в проектах с мониторингом информации в банках используются как раз NLP-технологии на базе той самой Compreno.
A164 не совсем понятно, какие элементы имеются в виду? Уточните, пожалуйста, более детально.
Сравнивать не совсем корректно, так как они используются несколько для разных целей.
Мы рассказали про плюсы PDF-форм в статье. В первую очередь, лучше тем, что PDF-форма будет одинаково отображаться в любой операционной системе, любой программе и на любом устройстве.
Все зависит от сценария работы и решаемой проблемы. Спасибо за обратную связь. Передали информацию продуктовой команде FineReader PDF.
Поддержка новых технологий и фич не всегда позволяет поддержать обратную совместимость.
Мы работаем над этим. Размер зависит от многих факторов. В частности, увеличение размера нового FineReader PDF связано с переходом на новые гибридные технологии распознавания с использованием нейросетей. Повышение качество OCR для нас является приоритетом.
Основная функциональность FineReader PDF — это работа с PDF, поэтому создание и редактирование PDF-форм — это не что-то отвлеченное, а расширение наших функциональных возможностях в распространенных PDF-сценариях.
Спасибо за фидбэк, учтем. Кстати, в справке на сайте ABBYY эти вещи описаны детально.
PereslavlFoto мы планируем сделать отдельный пост и рассказать про устройство PDF. Если совет нужен сейчас, то пишите, конечно.
PereslavlFoto К сожалению, мы не имеем точного представления, как LaTex вставляет к себе PDF-документ. PDF-документ — это многослойная структура, и контент страницы — это только его часть, пусть и наиболее существенная. Вероятно, LaTex умеет парсить документ и извлекать этот контент, может, даже преобразует в свой язык. Таким образом, если операндов цвета не встретилось, он сможет использовать свои операнды.
У Вас достаточно специфичный сценарий, вряд ли какая-то программа сможет делать именно то, что вам нужно: так как в PDF отсутствие цвета означает дефолтный черный цвет, многие редакторы все равно его явно запишут в поток команд.
Передадим вас запрос продуктовой команде FineReader.
PereslavlFoto Большинство просмотрщиков умеют восстанавливать байтовые смещения объектов, если они не очень большие. При таком редактировании документа главное не перестараться...
PereslavlFoto Уточните, что значит "чтобы была обводка и заливка незаданного цвета"? То есть она как бы была, но прозрачного цвета? Или все-таки ее не было? Или чтобы она была такого цвета, как векторные примитивы, нарисованные до нужного объекта? PDF дает простор для воображения.
В принципе, любую из этих операций можно сделать как вы уже делали, в блокноте. Но как выразился quwy, можно поправить что угодно, вопрос в том, насколько это сложно.
PereslavlFoto Нет. Возможно, вас смутила фраза про объекты и смещения? Это характерно абсолютно для всех PDF. Любой PDF можно представить и как compressed, и в обычном, читаемом виде (decompressed). Вопрос только в размере файла, который, очевидно, в сжатом состоянии будет меньше.
PereslavlFoto Скорее всего, вы просто меняли один символ один на другой, и при этом сам документ не был заархивирован. Тогда вы понимаете, что редактируете, и как это сделать, не нарушив байтовое смещение PDF-объектов. Но это возможно в очень редких случаях...
quwy Пример, который Вы привели, не похож на PDF. В PDF такие команды будут выглядеть так:
Как уже выше было сказано, PDF не целиком состоит из таких команд, это всего лишь команды для отображения контента. Помимо него, в PDF записано еще много чего интересного. Кстати, если объекты в PDF запаковать каким-нибудь кодеком, то он станет гораздо больше похож на бинарный файл.
eumorozov Как выше сказано, это действительно не результат компиляции. Но отождествлять PDF с PostScript тоже неправильно. Нужно понимать, что PDF-документ — это набор объектов, расположенных на фиксированных местах (смещении, offset) в файле. Объекты могут иметь разные назначения. Один из объектов в документе — это контент страницы. Такой объект имеет поток stream, в котором записан поток команд. Вот как раз такой поток команд и определяет видимую часть страницы. Правила записи потока команд действительно взяты из PostScript и имеют много общего.
quwy Тут вынуждены не согласиться. Результатом компиляции должен быть набор инструкций, который сможет выполнять какая-то программа (например, PDF-viewer). Но это не так. PDF-редакторы читают и пишут PDF, не переделывая его в промежуточный набор команд.
И вам спасибо, что прочитали.
Наша продуктовая команда как раз работает над ней!
Статья как раз о том, что ABBYY FineReader PDF умеет редактировать текст и делает это теперь не хуже Акробата. Попробуйте сами: триал можно скачать здесь
Спасибо, что заметили. Речь в посте идет именно о шлюзах удаленных рабочих столов (RD Gateway). Поправили в тексте.
Да, ИБэшники (информационная безопасность) есть.
Не совсем :) Он отделался увольнением.
Да, это сделано для удобства установки программы и разворачивания в корпоративных средах.
Спасибо за ответственное раскрытие информации об уязвимости. Как и описано в статье, фикс уже был выпущен и описан здесь
Compreno лежит в основе технологий ABBYY для решения задач Natural Language Processing. Если вы читаете новости про NLP-технологии ABBYY, то значит, что здесь используются технологии анализа и понимания естественного языка.
Нет, мы продолжаем использовать Compreno. Эта технология работает в составе NLP-возможностей наших продуктов. Например, в проектах с мониторингом информации в банках используются как раз NLP-технологии на базе той самой Compreno.