Восстановление утраченных текстов с помощью современных алгоритмов. Софт

  • Tutorial
image

В первой части мы с вами поговорили о научном оборудовании, которое используется для прочтения, казалось бы, утраченных навсегда текстов. А теперь мы поговорим о том, как обрабатывать эти данные. Мы рассмотрим интересные цветовые пространства, алгоритмы, фильтры и методы статистического анализа. Но перед этим еще раз вернемся к их извлечению. Нам, простым смертным, доступны два варианта — сканеры и фотоаппараты. 

Есть еще USB-микроскопы но при их цене в 500$ каждый при 12 диапазонах будет стоить слишком дорого. К тому же, он скорее для исследования деталей, чем для оцифровки. Рекламные видеоролики с примерами изображения мне не сильно понравились — перешарп изображения, как у дешевой китайщины.

Сканеры.


Сейчас подавляющее количество сканеров на контактном сенсоре (cis) что позволяет питать сканер прямо по USB без применения дополнительного питания. Это действительно удобно. Однако, у них низкая разрешающая способность 600dpi (хотя не всегда нужно выше) и очень большие проблемы с глубиной резкости. Если ваш документ приподнят над поверхностью стекла CIS сканера более чем на 3мм — ждите мыла. Более того, как рассказал мне Дмитрий Николаев он лично наблюдал откровенное маркетинговое намахалово в разных сканерах. Ты выбираешь в настройках продукта формат tiff, а по USB шине сканер гонит jpeg, и уже драйвер сканера делает преобразование. 


На что только не пойдешь, чтобы удовлетворить возросшие потребности покупателей!
.
О, молодец! Заметил!
Сейчас будет шутка
Где-то в компьютерном
image





Более профессиональные сканеры на CCD сенсоре. Их сканирующая часть состоит из объектива, зеркала и самого CCD сенсора. Из-за этого проблем с глубиной резкости у них нет. Так же есть еще одна важная физическая характеристика — это глубина цвета. Теоретически, изображение с цветовой глубиной в 48 бит для анализа лучше, чем в 16 бит. Как вы уже знаете, для формирования цветного изображения сканеру необходимо три цветовых фильтра перед сенсором. Существуют специальные мультиспектральные сенсоры для спутникового оборудования, но опять же, в готовых решениях их не найти. Мне даже попадался проект опенсурсного сканера, где существовала возможность менять белый источник света сканера на любой из 12 полос оптического диапазона. Но к сожалению, проект куда-то исчез из сети.

Если вы, дорогой читатель, имеете опыт построения железок этого уровня, можем попробовать это обсудить. Взять какой нибудь сканер, и переделать ему подсветку. Однако, вы все прекрасно знаете, сколько времени сканер тратит на изображение в 1200dpi формата А4. А при необходимости 12 сканов мы получаем минимум час чистой работы железки. Это печалит. Поэтому в современных мультиспектральных системах используются 2D сенсоры. Но у сканера есть и свои преимущества.

Фотоаппараты


Если посмотреть даташиты на какие нибудь кремниевые сенсоры, то их спектральная отзывчивость от УФ  до 1000нм и выше. После 700нм это уже ближний ИК диапазон, который нужно отсекать для привычной для нашего глаза картинки. Для этого перед каждым сенсором в любой потребительской технике находится ИК фильтр такого зеленого, на отлив фиолетового, цвета. Для задач мультиспектрального сканирования он только мешает. Поэтому любители ИК фотографии его удаляют самостоятельно.

Мне больше импонирует использование USB3 промышленных камер без bayer-pattern т.е. использование монохромных сенсоров. (USB 3.0 monochrome industrial cameras) например, BFS-U3-200S6M-C. Очень удобно заниматься подготовкой лаборатории, корректировкой освещения и позиционированием документа, а особенно, проверки резкости (при разных длинах волн фокус разный!) наблюдая изображение на большом экране монитора. 

Не следует забывать и про любителей вглядываться в вечность. Продавец астрокамер заверил меня, что между исследованием космоса и документов нет разницы и вместо промышленных камер лучше использовать камеры с активным охлаждением матрицы (их рабочий режим до минус 45 по цельсию) Например ASI183MM Pro.

С этой камерой можно использовать объективы от потребительских камер стандарта micro 4/3. Когда я делал обычную съемку на фотоаппарат Lumix DMC-GX80 (16mpx) дневника Васи Баранова я убедился, что мой Olympus 45mm f/1.8 на диафрагме 5.6 выдает достаточно резкие фотографии и вполне пригоден для использования. Даже шумов не так много, учитывая, что света было не так много как хотелось бы.

Из истории
Как-то Павел Полян укладывал меня спать у себя в московской квартире и предварительно разгребал для этого свои архивы. Одну комнату он расчистил, а другую — завалил. И в этом процессе и был обнаружен этот дневник, оставленный с какой-то выставки. Ну мы его и оцифровали.


И так, будем считать, что у нас так или иначе есть или RGB изображение или же мультиспектральный набор из серии монохромных фотографий. Последний требует особого подхода, о нем ниже.

Софт


ImageJ

Утилита ImageJ является популярным инструментом в анализе изображений на западе. Свободные графические алгоритмы, часто пишутся под эту программу и она часто упоминается в разного рода исследованиях как платформа для быстрой отработки графических алгоритмов. Особенно интересен раздел плагинов.

ENVI

Если смотреть историю мультиспектрального анализа, то конечно же первым предметом исследования для ученых были фотографии со спутников. В них установлены те самые мультиспектральные датчики и задачи ставятся ровно такие же — произвести коррекцию и вытащить максимальное количества информации. В этом смысле нет разницы: вглядываемся ли мы в космос или в рукопись. Популярным исследовательским решением выступает программный комплекс ENVI. Я буду говорить о версии 5.3 (другой не нашел ;-) ). В нем меня очень порадовал подход с возможностью анимирования результатов обработки изображений. У меня есть стойкие причины утверждать, что распознавание мозгом деталей на изображении происходит лучше в динамике изменений. То есть вместо того, чтобы передать переводчику статические файлы с набором контрастов, лучше дать ему анимашку. 

(Если знаете другое ПО, просьба сообщить)

Ссылка

Photoshop

Забывать его тоже не будем.

С чего начинать


Анализ каналов


ENVI / ImageJ / Photoshop plugin

RGB модель плохо подходит для максимизации отображаемых данных для нашей зрительной системы так же как и для сегментации изображений, определения краев и т.п. В 1989 году Xerox предложила цветовую модель YES. Она как раз основывается на физиологической модели нашего зрения. При съемке свитков Мертвого моря в 90-х  после преобразования RGB в модель YES в канале E были обнаружены ранее непрочитанные исследователями символы. Y — компонент яркости, E — красный минус зеленый и S — синий минус желтый. Эта модель очень уж похожа на современный Lab. Поэтому на сегодня о YES давно забыли.

Цветовое пространство OHTA было экспериментально выведено при статистическом изучении некорреляционных компонентов цвета из большой выборки обычных фотографий. В 2012 году был предложен новый метод сегментации огня, основанный на OHTA. С помощью этого метода можно точно разделить пламя в различных погодных условиях и в различных условиях окружающей среды. 

Все это означает, что выделение требуемого контраста определенных компонентов теоретически возможно. Поэтому начинать все следует с анализа каналов известных цветовых моделей, а потом уже пускаться в статистический анализ. Вы, конечно же, можете найти в imageJ почти все популярные цветовые модели и разложить на каналы самостоятельно, но есть замечательный аналитический онлайн-ресурс retroreveal.org.

Он отобразит в галерее каналы следующего набора цветовых моделей: Yuv, YQ1Q2, HSI, HSV, HSL, LCHLuv, LSHLuv, LSHLa, XYZ, Yxy, YUV, YIQ, Luv, Lab, AC1C2, I1I2I3.

К моему удивлению, он по каким-то причинам специально недоступен через выдачу в гугле. Его robots.txt содержит запрет на индексирование. Как-то раз я просто забыл название ресурса и потратил кучу времени на его гуглеж по ключевым словам! И конечно же я ничего не нашел! Пришлось делать глаза котика и писать в твиттер британской библиотеки, чтобы мне напомнили некий ресурс, куда заливаешь скан и получаешь раскладку по каналам из разных цветовых моделей!

Если результат в анализе каналов показывает, что необходимая информация в изображении проявляется, то для увеличения читаемости ничего кроме перебора всего остального из статьи я вам предложить не смогу. Так или иначе с опытом приходит понимание:  есть ли в исследуемом документе что-то еще или же вам без ускорителя частиц все-таки не обойтись.

ColorTransform 2


colorTransformer2

Онлайн сервис retroreveal.org имеет ограничение на размер обрабатываемого файла. Аналогичное можно повторить локально через ColorTransform 2

Фильтры 


Levels and saturation


Привожу этот пример, как часть интуитивного мышления исследователя. Чуть ранее мы говорили о цветовом пространстве YES и нашем восприятии, а в пространстве RGB мы интуитивно правим изображение по уровням и насыщенности. Хорошим примером такого чутья действия выступает расшифровка медальона



image

Как это прям точно было реализовано я не знаю, но обработка велась в photoshop Олегом Гусевым. Я же смог добиться разборчивости через предварительное поднятие банальной насыщенности.

Обратите внимание на скриншот с развертыванием бумаги. Как много остается мокрой бумажной пыли! А ведь такая кучка вполне может содержать пигмент на целую букву! При том, что идеальное решение этой задачи существует с помощью рентгеновской микротомографии! Я точно знаю, что рентгеновский томограф есть в институте кристаллографии им. А.В.Шубникова, но там такая очередь!
 


(Пожалуйста, не пытайтесь обрабатывать пример выше самостоятельно, сохранив файл на компьютер. Это скриншот с видео — труп. Я проверял результат с другого увеличенного кадра и подтверждаю, что это реально) 

Среди поисковых отрядов есть желание сразу же увидеть фио бойца в найденных документах на глазок, под солнышком. Это приводит к очень печальным последствиям и очень злит. Документы просто уничтожаются. Цитата Алексея Мишина:

«Нашли недавно политрука 416 сп. Его документы распотрошили в чистом поле. Удостоверение с фотографией убили. Вся надежда на ДНК экспертизу. Сейчас ждём образцы от родственников.
Скорее всего нашли мл. Политрука Вандышева. »


А это состояние документов, найденных 3 октября 2020 года, с которыми приходится работать исследователям.

image

Как вы понимаете, их раскрывать очень рискованно.

Black&White


Подробно о применении этого фильтра я писал здесь.

Пример


Вот видео процесса и PDF-версия:



Если коротко, фильтр Black&White пересчитывает модель RGB в 7 цветных слоев, что позволяет регулировать интенсивность каждого довольно точно. Это как бы псевдо мультиспектральная съемка.

Highpass



В процессе обработки вы можете столкнуться с тем, что фильтры просвечивают и затемняют нужные зоны рукописи. В этом случае помогает фильтр highpass, его назначение именно в регулировании перепадов яркости. Опять же его практическое применение вы увидели в видео выше.

Алгоритмы


Decorrelation Stretch


ENVI / ImageJ

При отсутствии технологических возможностей, требования к анализу цифровых изображений выставляются часто предельные. Почему? Представьте, что у вас нет возможности слетать на марс с другим фотоаппаратом. Так в 2004 году марсоход Opportunity прислал фотографию после бурения породы.


На изображении три отверстия, созданные внутри «кратера выносливости» летом 2004 года. Ученые из NASA применили алгоритм Decorrelation Stretch

Поскольку цветовые вариации на марсе крайне слабы, с помощью этого алгоритма  можно лучше различить структуру породы. Когда бур просверливает серый гематит, в результате получается ярко-красный порошок, а  благодаря обработке можно различить процесс прохождения слоев. Первый слой красный, второй желтый, а самый глубокий — зеленый.  


Реализация этого алгоритма конкретно для imageJ доступна за денежку. Его автор Jon Harman. Он написал не очень дешевое мобильное приложение с этим же функционалом, чтобы не скучать во время вылазки в горы для любителей изучения древней наскальной живописи. Ссылки на его софт встречаются в публикациях, но что касается рукописей, как-то мне ничего дельного не встретилось. 

Применение к рукописям членов зондеркоммандо программы Dstretch, чьи цифровые копии лежат у меня, по моему мнению, этот алгоритм неприменим из-за проблем с детализацией. Именно поэтому он лучше подходит для поиска крупных объектов. В базе матлаба тоже есть реализация этого алгоритма, но Dstrech умеет работать с конвертированием в массу цветовых пространств. 

Результат обработки обычных фотографий наскальной живописи на его сайте достаточно любопытен.

Ссылка



Colour Deconvolution


ENVI / ImageJ / Photoshop plugin

Ссылка 1 | Ссылка 2

Цветовая деконволюция активно применяется в медицине для разделения подкрашенной прозрачной клеточной ткани. У алгоритма строгие требования к однородности цветовых пигментов и необходимости их наложения с наличием полупрозрачности (то есть верхний слой пигмента не должен полностью закрашивать подложку). Но такие ситуации тоже могут быть. Например, в примерах коммерческого плагина для photoshop есть онлайн редактор. К сожалению, реализации работающего на лету алгоритма я не встретил. Нужно тупо задавать три параметра и жать кнопку. Это очень неудобно.


Мое мнение по этому алгоритму: если контраст, который мы ищем основан на разнице в цвете (не близкого по спектру), обойтись получится куда более удобными подходами. Но если исходить из результата, очень близкие прозрачные цвета, наложенные друг на друга могут быть успешно разделены. Повторить это из известных мне трюков в фотошопе у меня не получилось.

Методы статистической обработки


Статистические методы анализа предполагают, что разделить информацию на слои для обнаружения новых закономерностей возможно, только не ясны параметры, по которым это следует сделать.

Здесь мы переключаемся на программный пакет ENVI, специализирующийся на обработке мультиспектральных  спутниковых данных. В своем наборе он содержит больше количество алгоритмов, которые выступают стандартом первичного анализа данных, полученных после оцифровки. 

Метод главных компонент (PCA) и метод независимых компонент (ICA)


Спектральные полосы изображения сильно коррелируют, так как занимают близкие области в пространстве. Для анализа такой массив данных не очень удобен. За последнее десятилетие было разработано большое количество методов сокращения размерности. Однако, в этой статье я не рассматриваю их применение через непосредственное обращение к коду. Я расскажу о методах, которые существуют в коммерческих продуктах.

Методы PCA и ICA используется для снижения размерности, то есть удаления избыточной информации. Из 12 каналов можно получить 3, но более детализированных. После обработки первый канал изображения содержит наибольшую дисперсию данных (наименьший разброс случайной величины относительно ее математического ожидания т.е среднего предполагаемого положения), второй — вторую по величине и так далее до того момента, когда данные уже сливаются в хаотический шум.

Удачным примером служат некоторые страницы палимпсеста Архимеда ( 287-212 ГГ. до Н.Э.)


На этом рисунке палимпсест содержит смесь из двух наложенных текстов и, вероятно, разные слои из плесени и прочих пятен. На основе мультиспектральной съемки из итоговых 14 слоев удалось извлечь чистые страницы первичного текста Архимеда.

На изображении ниже к рукописи Лейба Лангфуса применен ICA. Особенность этого документа — практически полное отсутствие цветового пигмента чернил и отдавался он на перевод таким, какой был со сканера. После обработки появляется более значимый контраст. Даже этого достаточно, чтобы просто увеличить скорость перевода. 


А здесь применение ICA для образца из главы про цветовую деконволюцию. Мы получаем результат, но теряем оригинальные цвета.


Следует отметить, что программный продукт matlab содержит в себе около 12 способов уменьшения размерности, помимо PCI и ICA.

Если вы читали в моей предыдущей статье о палимпсесте Галена, то некоторые из его страниц прочитались с помощью CVA (Метод анализа канонических переменных)

А это часть из тестируемых образцов, где метод CVA показан первым.

image


Какой способ и когда лучше работает — исследователи сказать не могут.

Индивидуальные подходы


В зависимости от характера повреждения текста процесс возможной обработки является уже творческой задачей. К сожалению, примеров работ с подобными трюками пока мне известно крайне мало. 

Компенсация протекших чернил


В случае с рукописью Марселя Наджари мне пришел в голову способ компенсирования протекших чернил.

Я уже отсылал к своей статье. Суть довольно проста — если у вас есть два скана одной страницы, вы можете использовать обратную сторону зеркально чтобы уменьшить ее влияние на восприятие информации на лицевой стороне. Так или иначе этот способ позволил значительно увеличить читаемость первой страницы Марселя, а на дальнейших  — значительно облегчить труд переводчика. 

Оптико-электроная текстология


Из российских проектов мне известны работы по прочтению рукописи Чехова и Достоевского. Не смотря на то, что те статьи озаглавлены как «ОСНОВЫ ОПТИКО-ЭЛЕКТРОННОЙ ТЕКСТОЛОГИИ» — это кропотливый труд. Суть рассматриваемой работы заключалась в большом мастерстве автора соединять видимые элементы рукописного текста, который зрительно можно разобрать. Оказывается, можно вполне себе восстановить целые предложения.

Ниже страницы письма Ф. М. Достоевского к А. Е. Врангелю от 14 июля 1856 г. с зачеркнутым текстом.


А это результат 


Не смотря на то, что были попытки проводить мультиспектральный анализ, из-за идентичного состава чернил разницы в контрасте не возникло. На этом исследователи остановились. Еще фрагмент:


Мастерству натренированного глаза можно только удивляться! По словам исследователей, данная работа продвигалась невероятно медленно. ЕЩЕ БЫ! Я когда это первый раз увидел, думал что за магия, где формулы? На мой взгляд, методы статистической обработки позволили бы сделать эту работу быстрее. 

Итог


На этом, я думаю можно подводить итоги и завершать экскурс в эту интересную тему.

  • Если вы можете получить серию чб фотографий, то есть произвести съемку в разных спектрах, используйте envi и прочие алгоритмы статического анализа для уменьшения размерности.
  • Если у вас есть RGB файл, то из всего перечисленного выше стоит рассматривать retroreveal как первичный анализ, ColorTransform 2 — для обработки локально без ограничений по объему файла, Dstretch для imageJ — альтернативный вариант ( а может и более лучший) и методы статистической обработки.


Я надеюсь, что вы сможете поделиться данной статьей с людьми, в чьих интересах лежит схожая область или же они не подозревают о существовании таких подходов. Мемуары вашего ветерана или же другой испорченный документ может быть восстановлен с помощью современных технологий. 

Обращусь к коммерческим компаниям, занимающимся как и фотокамерами так и другим исследовательским оборудованием. Для вас это может быть хорошим пиар ходом. Эту статью наверняка прочитают сотрудники государственных архивов и музеев и не долог тот час, когда вы можете быть нужны друг другу. Как много еще неизученных документов, письма Пушкина, Салтыкова-Щедрина, Достоевского, Чехова и других писателей, которые без вас еще долго будут пылиться на полках из-за отсутствия нужного оборудования. По данным из совместной работы вы можете подготовить замечательные и полезные рекламные статьи.

Средняя зарплата в IT

111 690 ₽/мес.
Средняя зарплата по всем IT-специализациям на основании 6 678 анкет, за 2-ое пол. 2020 года Узнать свою зарплату
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 39

    +2
    В качестве сканера очень удобно использовать фотоаппарат с управлением с компьютера, таких моделей было много у Canon. Некоторые из аппаратов Panasonic также поддерживали удалённое управление.
    Использование Canon SDK позволяло полностью управлять камерой — фокусировкой, вспышкой, выбором режима, можно было делать снимки минуя карту прямо на компьютер через USB. Очень удобно для автоматизации оцифровки.
    Как сейчас обстоят дела с удалённой съёмкой не знаю.

    Также попадался когда-то сканер формата A3+ с оптической плотностью 3 благодаря полноразмерной подсветке верхней крышки, конечно на ccd матрице, правда с интерфейсом SCSI. Идеально для оцифровки рентгенограмм.

    Ещё вполне обычный сканер HP, но с дополнительным аксессуаром в виде подвижной лампы сверху, она передвигалась синхронно с матрицей и также увеличивала динамический диапазон сканера при сканировании прозрачных материалов.

    Спасибо за обстоятельные статьи. Успехов в нелёгком но благородном деле.
      +1
      Я подумывал о замене в cis сканерах трех smd светодиодов на ИК из трех диапазонов подходящего по размеру. Не говорю, что можно попасть в технические характеристики… все таки и они там работают в ШИМ режиме с синхронизацией принимающей сигнал стороны. Я не разбирал сенсор, вполне возможно что это нереально, но сама идея очень заманчива по доступности. Иметь три каких нибудь Canon Lide 220 с другими полосами и получается довольно доступный инструмент любого исследователя. Даже глубина резкости может быть приемлемой.

      Это вот корочка советского депутатского билета. Она миллиметра 3 толщиной и видны проблемы с резкостью, но все что тоньше 1 мм прикладывается к стеклу хорошо.

      image
        0
        А на ccd разворот фолианта глубиной 3см пробирало без затемнений, ещё очень удобно было сканировать печатные платы с высокими элементами с двух сторон. Прогресс, однако.
          0
          ага. Еще FineReader поэтому научился определять эти искажения и программно их корректировать перед распознаванием. А на cis уже не получится, зато питание по usb.
      +1
      Спасибо!

      Всё это хорошо помогает прочитывать документы из сайта «Подвиг народа» в тех строках, которые замазаны или стёрты.
        +2
        Сложности в том, что там выдается jpg пожатый для веба, а с этим большие проблемы, потому образец для исследования отвратителен. Если можно запросить файл в в формате без сжатия (tiff bmp), это определенно лучше.
          –1
          Ещё один отличный вариант — gif. Когда в палитре немного цветов, скажем, до пяти — gif жмёт прямо очень хорошо, и это ведь сжатие без потерь. В идеале вообще 2 цвета: белый и чёрный, для распознавания больше и не нужно, но обязательно без дизеринга. Фон желателен ровный, без пятен и пожелтения, иначе придётся ровнять уровни каждой страницы вручную.

          300 dpi достаточно для обычного текста среднего качества, для хорошего 150 и иногда 75 dpi достаточно для сохранения визуальной читабельности и уверенного распознавания в Finereader'е.

          Когда-то была мфушка Canon, которая отлично жала в gif — пережать после неё сильнее получалось не всегда.

          Ещё в gif сохранял обработанные карты местности, они были достаточно крупные семицветные (вода синий, дороги ЕМНИП коричневый, лес зелёный и т.д) — многие листы очень хорошо поддавались снижению палитры до 8 цветов, на некоторых всё же цвета были пропечатаны неверные, там приходилось расширять палитру. Идея была потом всё это богатство векторизовать, а векторизация по узкой палитре шла идеально, треки можно было легко группировать по цвету. Но потом не пригодилось, нашлась векторная карта готовая.
            +1
            Вы говорите о том, что раз изображение проходит бинаризацию перед распознаванием, то давайте поможем предфильтром (визуальной оценкой глазами) бинаризации через конвернтирование в gif. То есть гиф это не безпотерьный формат, просто мы визуально оцениваем будут ли потери при бинаризации и после этого можем назвать его безпотерьным. Но я не имел ввиду оптическое распознавание софтом, я имел ввиду что если применить PCA и ICA на изображениях с сайта память народа — вы увидите одни квадраты от JPG. А если будет tiff то, результаты могут быть.

            Мне присылали файлы с полицейского спектрального компаратора, ИК, УФ и прочие фотки, но в JPG! Там ничего невозможно было сделать. Файлы пожаты!

            Gif потому и появился, что было много файлов с ограненной палитрой, типа карт, да.

            Но мой любимый трюк это чб bpm в rar — тоже жался раз в 10 :-)
              0
              Наиболее распространённый формат растрового видео до сих пор JPEG, несмотря на его артефакты, наличие вейвлет-преобразования и основанной на нём улучшенной версии JPEG 2000, лишённой артефактов. Соответственно, проблема больших архивов изображений в неразборчивости ввиду использования JPEG с высоким коэффициентом сжатия из соображений экономии дискового пространства.

              В случае хранения архивов печатных или рукописных документов gif является идеальным форматом (для хранения именно текста и простых эскизов благодаря их нечувствительности к потере верности оттенков, иллюстрации и буквицы можно хранить в jpg). Степень компрессии из расчёта количества страниц на единицу объёма уникально высокая. При этом сохраняется высокая достоверность формы графем. Также gif давно и прочно является широко поддерживаемым программно и аппаратно форматом.
                0
                Это верно для случае, когда в документе всё чётко и очевидно, для последующей обработки (как в статье) гиф не подойдёт. А ведь никогда не знаешь, как в будущем захочется обработать старые материалы, добровольно выкидывать информацию при архивации — зачем, для экономии места? Терабайт места уже перевалил за 20$ (вниз), а этого хватит на 100 000 сканов в хорошем разрешении и с банальным гзипом, полторы копейки за документ.
                  0
                  Как вяжется удешевление дискового пространства с преобладающим способом хранения архивов в виде пошамканых JPEG'ом снимков с безнадёжной потерей читабельности? В большинстве массовых МФУ при внутренней обработке также преобладает JPEG.
                    0
                    Мне кажется, что gif теряет ещё больше информации, чем jpeg, поэтому я и предлагаю вообще отказаться от таких вариантов, а хранить нежатое
                      +1
                      я так понял, он имел ввиду, что лучше палитра в 256 цветов, чем jpeg c сильным сжатием, чтобы разглядеть хотя бы что-то глазами.
                        0
                        Gif ЕМНИП умеет и 64к цветов, но такое решение далеко от оптимального.
                        Смысл есть в том случае, если палитра документа умещается в 16 цветов без потери информативности. Т.е. подходят все ч/б принтеры, цветные лазерные (нет смешения цветов и создания новых оттенков), термопринтеры, ризографы, типографские машины (включая флексографию) кроме полноцветных.
                        Не подходят струйные цветные, твердочернильные, термосублимационные, т.е. производящие оттенки путём смешения цветов. Может, что-то забыл.
                          0
                          может и имеет, но стандарт вроде бы под палитру 256 цветов + прозрачность. 64к gif это уже bmp :-) При печати на принтере файл все равно пересчитается из любого формата в какой нибудь свой примитив типа bmp.
                        0
                        Мне кажется, что Вам кажется. Условия, где gif применим уже описывал.
                        Не упомянул ещё один вариант — документы, отпечатанные на неполноцветном устройстве печати и хранящиеся в нормальных условиях — не пожелтевшие от ультрафиолета, не намокшие и т.д.
                        Это всего лишь львиная доля всех напечатанных человечеством документов. В этом случае конвертация легко автоматизируется, без потери информативности. Результат подходит для последующего распознавания текста с целью хранения и индексации.

                        JPEG создаёт новую информацию из-за подверженности артефактам, безвозвратно теряя оригинальную и ухудшая результаты распознавания. При этом он неплохо подходит для хранения превью оригинальных страниц в низком разрешении, не предполагающем распознавания, за счёт хорошей передачи характерной палитры документа, что совершенно излишне именно для целей распознавания текста.

                        Хранить всё несжатым до сих пор не выглядит приемлемым массово.
                          +1
                          Если речь про высоко контрастные документы, тогда, gif пойдет, но мне почему то больше png8 нравится. А Jpeg зависит от степени компрессии. До 90 единиц компрессии визуальной разницы нет. Артефакты это 8x8 пиксельная сетка. Если размер шрифта на документе больше 8, то можно и пожать сильнее до 75%.

                          Так же и у GIF могут быть такие же безвозвратные потери оригинальной информации, если текст внезапно становится слишком мало контрастен по отношению к фону. А потом внезапно попадется бледная печать. И тут можно проглядеть а jpeg 90% ничего не испортит абсолютно.

                          К тому же, есть еще формат deJаVu который тоже не плохо с этим справляется, вплане читаемости при адовом сжатии. Сейчас может быть вообще стоит HEIF использовать, если не боятся обратной совместимости. А то и AVIF
                            0
                            На вкус и на цвет…

                            Основные артефакты jpg — это всё-таки отстоящие повторы контрастных контуров, что как раз и было исправлено в форматах, основывающихся на вейвлет-преобразовании, в т.ч. DjVu. Вейвлет чудесен, но его не везде принимают, ни DjVu, ни JPEG2000.

                            Иногда, кстати, использовал jpg с невысоким сжатием перед gif — jpg исходно умеет терять наименее важную часть цветовой информации, что в сложных случаях позволяет получать на выходе приемлемый вариант без ручной обработки.

                            Сложность применения любого формата, отбрасывающего часть информации именно в валидации каждого экземпляра сжатого изображения. Если вдруг посреди многостраничного оригинала встречается страница с другими свойствами, например цветная вставка посреди текста, дефект печати или просто лист, пропитанный непрозрачной жидкостью или выцветший на солнце, такой странице нужно уделить особо пристальное внимание. К счастью, выявлять такие случаи автоматически несложно и к ним можно применять другие алгоритмы сжатия или вовсе оставлять несжатыми.
                            Но всё это относится в основном к первоначальной обработке оригиналов. Если объект уже сжат с потерей, лучше оставить как есть.

                            К сожалению, неоднократно наблюдал ситуацию когда уже имеющуюся базу разнородных изображений, накопленную за несколько лет, сжимают автоматически по одному шаблону из-за заканчивающегося дискового пространства или по другим причинам, а через некоторое время обнаруживается, что многие изображения стали нечитабельными. В итоге, к примеру, невозможно по запросу уполномоченных органов предоставить сертификат к товару, проданному несколько лет назад — производителя может уже не существовать.

                            Почему иногда приходится заморачиваться со сжатием больше, чем хотелось бы — иногда приходилось обрабатывать изображения для формирования пакета документов для передачи, например, в банк для предоставления кредита. А требования могут быть довольно строгими и сумасбродными не всегда обоснованными. К примеру, итоговый документ должен умещаться в 10 МБ pdf файл, как вариант — pdf.zip (что мало помогает, т.к. сжатые изображения архиваторами уже практически не жмутся), или многотомный zip архив с кусками не более 2 МБ, документы подаются онлайн и отклонения просто не пройдут. И это на пакет, включающий устав предприятия, в т.ч. на всяческих непростых бланках с водяными знаками, описание объекта залога страниц на 200 с вклейками А2 из технического плана объекта, грустными ксерокопиями документации, сделанными в прошлом веке, цветными фото и т.д.
                            10 МБ должно хватать всем.
          0

          16-битный ImageMagick из командной строки вполне справляется с многими задачами, которые нужно автоматизировать.

            0
            Когда я сканировал пленку в 48bit обычную, 70-х годов на пленочном сканере, на выходе был файл очень бледный, потому что гистограмма изображения выходила довольно узкой. Видимо пленка не содержала в себе той информации, что я хотел извлечь. Я приводил уровни и конвертировал в 8bit без особой визуальной разницы. Но когда речь идет о статистическом анализе изображения, если сканер реально может извлекать максимум из физического носителя, лучше это сделать, потому что будет пересчет с ног наголову на пограничных значениях цветов. Мы не видим — а кто его знает, что там за данные. На сколько это оправдано практически — не знаю, наверное не сильно.

            Вообще, стат анализ непростая тема. Очень много математики, которую нужно понять в виде образа в голове. Я бы расписал ее подробнее, но месяца два три на изучение нужно потратить. Потому ограничился двумя встроенными в аналитический софт алгоритмами, которые я встречал в науч. публикациях как основные в 95% случаев.
              0

              Если при самом сканировании вы можете настройками сканера добиться большего числа значащих разрядов без фальшивого растяжения гистограммы, то это имеет смысл. Если не можете — то нет. Работать в 48 бит с изображением может быть более осмысленно, потому что нет потерь (или появления ложной информации) на округлении.

                0
                Верно. Поэтому я и написал про jpg в шине и tiff на выходе) Никогда не знаешь, что ты купил) Циферки вроде задаешь, а все это все равно черный ящик) Мне казалось, что можно будет найти проект опенсурсного документного сканера. А нет! Оказывается, таких проектов в сети нет. Не сложнее 3D принтера. Как заводили линейные сенсоры на ардуинке вроде видел, но там скорости не те, ардуинка не потянет для удобной работы на полном разрешении, и нет самой важной софтовой части синхронизации механики.
                  0

                  Ну, перед покупкой сканер лучше действительно попробовать, и понять, что у него с качеством — довольно несложно, достаточно отсканировать высококонтрастный образец не с настройками по умолчанию. Про это, только применительно к фото, много пишет разработчик RawDigger.

                    0
                    Я думаю в этом нет большой необходимости. Если подбирать устройство для этих задач, видимо есть бюджет, то лучше не использовать сканер. Или брать тот что уже куплен или работать с цифровой камерой, или с камерой без ИК фильтра. И так все по нарастающей исходя из бюджета вплоть до 20 000$ на систему MegaVision со 100mpx полутоновым сенсором, где размер пикселя с мизинец :-) Это все игры с непонятным результатом, не угадаешь с ситуацией, для первичного анализа надо делать на том что рядом.

                    Сканеры нужны, когда оператор совсем на вы с компьютером. Удаленно можно обьяснить где включить компьютер и так далее. Могут спросить да, какой нам купить в музей сканнер для общих задач. Ну я смотрю что там у эпсонов обычно топовое на CCD.

                    Диггера посмотрю, спасибо.
                    0
                    Кажется сейчас даже матрица с мобильника даст более качественное изображение, чем бытовой сканер с непонятными играми в драйверах, поэтому наверное и не делает никто сканеры опенсорсные.
                      0
                      Вот когда мобильник сможет делать снимки хотя бы плоской страницы без геометрических и цветовых искажений и станет сохранять размер оригинала в снимке, тогда и поговорим ;)
                        0
                        Чем мобильник в этом вопросе принципиально отличается от DSLR, упомянутых в статье? Цветовые искажения — в первую очередь зависят от источника света — это в руках сканирующего; RAW сейчас с камеры мобильника вытащить возможно, положить рядом табличку для калибровки — сам бог велел; геометрические искажения — это всякая перспектива и т.д. или бочка и прочее, вроде всё решается несложной кабибровкой (но это может мне как спецу в CV казаться, для архивного работника условного может быть тёмный лес, конечно)
                          0
                          Была идея мультиспектрального смартфона. Я даже пытался сковырять с сенсора цветной паттерн, но потом ничего не работало) А когда появились смартфоны с чб матрицами дополняющие цветные, это стало очень интересно! Но производитель не дает эту камеру на уровне api. Да и затачиваться под решение производителя, которое в след году он задеприкейтит получается бессмысленно.
                            0
                            Взгляните с другой стороны — мобильник, закреплённый на штативе в студии с хорошим светом смотрится странно. За что крепить? Как располагать по отношению к оригиналу? Как заряжать при многочасовой работе? Что с оптикой?
                            Ну и калибровочная таблица предполагает последующую коррекцию. КМК аппаратный сканер всё же предпочтительнее обоих вариантов.
                            Но можно, конечно, и мобильник.
                              +1
                              но есть классный софт с распознаванием жестов. Ты размещаешь сверху мобилку на штативе и даешь ей рукой жест, она дает звук — что распознала, убираешь руку, она делает кадр. Жестов несколько. Можно кажется, даже профили жестами задавать. Чтобы где надо со вспышкой, где надо с другими параметрами. Чумовая идея при потоке. или голосовыми командами. Руками телефон трогать нельзя, чтобы не трясти.
                                0
                                Зачем это нужно, если можно управлять с пульта или компьютера?
                                  0
                                  А вы руки не убираете с рабочей поверхности. К клаве надо поворачиваться всегда. Ну, я не настаиваю, просто знаю такие приложения под андройд.
                                    0
                                    Пульт в данном случае был бы идельным вариантом. Можно нажимать кнопку мизинцем или большим пальцем.
                                      0
                                      Можно) А можно и просто вытягивать указательный палец из кулака в правой части экрана.
                                0
                                Кажется что DIY-сканер — это заморочки примерно того же уровня усилий и бюджета, что сделать оснастку для телефона из алюминиевого уголка с парой светодиодных линеек по бокам (и запитать смартфон от того же источника заодно), однажды откалибровать и останется только книгу листать/документы подкладывать.

                                  0
                                  но делают же машинки на ардуинках, квадракоптеры, чего только не повторяют. А сканеры — не хотят)
                            0
                            Ой не соглашусь. CCD сканеры мало эволюционировали технически, особо не куда, и довольно хорошо справляются.Скорость да, у старых ниже. А качеством не хуже. Я так понимаю, проблема с современными CIS сканерами. Удобство питания, менее скоростные компоненты… выходят из положения)

                            А телефоны… оптика не та, там бы объектив градусов от 50 до 120 нужен тогда для документов более менее. А их вечный широкий угл и вечные тени от рук на документе. Даже дешевые сканеры ооочень равномерно освещают документ. Телефонам такое не повторить.
                            Основной их плюс — это мобильность и скорость. Пришлел в архив, зафотал пруфы. Для исследования все равно нужно что-то лучше
                              0
                              А, я думал это какой-то более-менее стационарный вариант, если в чужом архиве, то небольшой сканер будет удобнее, чем городить сканер из телефона, да.
                    +1
                    Огонь, спасибо

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое