Комментарии 27
Похоже, что всё идёт к тому, что документы будут описываться правилами «как их сделать», а не «что там изобразить».
Поправьте, пожалуйста, JPEG200 -> JPEG2000.
А текст при этих настройках (FR10, по умолчанию) распознается?
И куда в файле он помещается, как при этом изменяется сжатие?
Достаточно ли для добавления распознанного текста обычного FR или нужен FR Engine?
И куда в файле он помещается, как при этом изменяется сжатие?
Достаточно ли для добавления распознанного текста обычного FR или нужен FR Engine?
Текст распознаётся и помещается отдельным слоем под картинку.
Весь механизм работает и в FR Engine, и в обычном FR одинаковым образом — у них общий код. В Engine чуть побольше ручек.
Про сжатие я не уверен, что понял вопрос. Pdf представляет из себя текст, картинки и управляющие команды. Обычно картинки имеют самый большой размер.
Технология MRC направлена на то, чтобы уменьшить размер картинок. Размер текстового слоя не меняется, управляющих команд становится немножко больше.
Весь механизм работает и в FR Engine, и в обычном FR одинаковым образом — у них общий код. В Engine чуть побольше ручек.
Про сжатие я не уверен, что понял вопрос. Pdf представляет из себя текст, картинки и управляющие команды. Обычно картинки имеют самый большой размер.
Технология MRC направлена на то, чтобы уменьшить размер картинок. Размер текстового слоя не меняется, управляющих команд становится немножко больше.
Спасибо за полный ответ.
Имелось в виду под изменением сжатия, что изменились накладные расходы для текста под MRC, и, может, вы научились сжимать и текст внутри PDF.
Насколько я понял, текст не сжимается, а накладные в виде команд несущественно увеличиваются, так?
Имелось в виду под изменением сжатия, что изменились накладные расходы для текста под MRC, и, может, вы научились сжимать и текст внутри PDF.
Насколько я понял, текст не сжимается, а накладные в виде команд несущественно увеличиваются, так?
Спасибо, познавательно!
Когда буквы объединяются в кластер, показывается случайная буква из кластера или «средняя» буква?
Зависит от реализации. У нас «средняя».
Вот уж действительно сжимает так, что не отличишь, на второй паре картинок даже URL совпадает.
спасибо интересно… ещё интересно какие алгоритмы ищут что есть что…
Да, кстати очень интересно как она отличается что етсь просто картинка а что есть буквы.
хотя я тут подумал, алгоритм наверное такой, если нельзя распознать считаем это картинкой…
хотя думаю алгоритм посложнее, у них же есть для распознования текстов
хотя думаю алгоритм посложнее, у них же есть для распознования текстов
да даже как текст то распозновать не ясно.
надо определить размер буквы учесть ошибку сканера или фотоаппарата плюс ещё понять откуда начинается текст на странице. интересно было бы про это почитать:)
надо определить размер буквы учесть ошибку сканера или фотоаппарата плюс ещё понять откуда начинается текст на странице. интересно было бы про это почитать:)
Насколько я понимаю примерно так же обработали свидетельство о рождении Обамы.
Клёво. Наконец-то DJVU встроили в PDF.
Интересно, какие дыры в патентах это позволили?
Интересно, какие дыры в патентах это позволили?
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как технология MRC уменьшает размер PDF-документов