DataGlyphs — кодирование информации в изображении


    Исследовательский центр в Пало-Альто (Palo Alto Research Center — PARC), филиал знаменитой американской корпорации Xerox, разработал систему, которая позволяет совместить бумажные документы, предназначенные для людей, с машинным чтением, обладающую ошеломляющим преимуществом над прежними принципами кодировки.

    Система называется «ДатаГлифы» (DataGlyphs).
    Данные кодируются в виде множества диагональных штрихов (создатели технологии назвали их глифами), каждый из которых соответствует одному биту. Значение бита зависит от направления глифа.

    Если оборудование, на котором печатается документ, имеет достаточно высокое разрешение, размеры глифов будут очень малы — не больше сотых долей дюйма. Благодаря этому, на крохотном участке страницы можно уместить сотни байтов цифровых данных. Впоследствии, отсканировав документ, эти данные можно извлечь и раскодировать.

    Каждый «ДатаГлиф» (то есть — штрихкод нового типа) содержит решётку синхронизации — регулярный повтор одного и того же набора глифов, который и отмечает границы напечатанной информации и повышает надёжность чтения, благодаря избыточности кодирования.

    Даже при уровне избыточности кодирования почти в 30%, по сравнению с самым распространённым стандартом штрихкодов — code39 (без дублирования информации) — новый тип кодирования обеспечивает почти в двадцать раз большую плотность упаковки данных: примерно 155 байт на квадратный сантиметр (при печати на принтере с разрешением 600 точек на дюйм).


    И даже в сравнении со стандартом pdf417 — самым совершенным штрихкодом из прежних систем — разница составляет 1,8 раз (в пользу DataGlyphs).

    Пользуясь вариацией в толщине соседних глифов и в их цвете, глифами можно напечатать чёрно-белое или цветное изображение, «глифовая» структура которого будет незаметна на глаз (как мы не видим точки разного диаметра при печати фотографий в газете).


    Рассуждая дальше, из глифов можно делать серенький фон на текстовых документах, содержащий в себе сам документ в цифровом виде. Эта технология двусторонней печати одного и того же документа (одна сторона «буковками» — для людей, вторая «глифами» — для машин), назван разработчиками GlyphSeal, ему прочат больше будущее. Ведь теперь не нужно будет никаких программ распознавания напечатанных символов для сканирования, скажем факса.

    На одной из презентаций разработчики представили прототип сканера, представляющий из себя прозрачную поверхность, на которой, если расположить сканнер над закодированным участком, выводиться закодированная информация.

    Но самое главное, технология — Open Source. Желающие могут получить исчерпывающую информацию на сайте проекта: http://www.parc.com/research/projects/dataglyphs/
    Share post

    Similar posts

    Comments 20

      0
      Давно пора уже такой технологии появиться. Вообще, цифровое дублирование документа на нём же - правильная идея. Кодировать можно не в фон, а в сами буквы. Особенно правильно будет внести эту технологию во все современные драйверы принтеров.
        0
        Хм, сколько раз в филмах показывали подобный способ "вложения" информации в рисунки,видео и тд ( в фильмах про инопланетян :) ). А технология появилась только сейчас ?
        0
        Наконец то кто то вспомнил про эту технологию. Первый раз прочитал о ней год или два назад в Компьютерре, но потом не мог найти на сайт Ксерокса. Спасибо.
          0
          Аналогично, поэтому поискал материал и запостел, чтобы самому вспомнить.
          0
          А лет десять назад, или деже ранее были шифровальщики (ПО), которые модифицировали графический файл BMP (не уверен что формат JPG например тогда уже был, если что , то народ поправит)таким образом, что в нем и картинка сохранялась и там же текстовый документ , или какой-либо другой, разворачивался.Влаго,что BMP внушительный размер имеют и тексту там есть где " развернуться ". Помню, что разные госструктуры тогда очень распереживались по этому поводу.
            +1
            Этот метод называется стеганография. Пример программы на сайте: https://www.steganos.com/en/
              0
              Это был как раз JPG файл. смысл кодирования прост, вы создаете jpg файл, Открываете его HEX эдитором потом, добавляете туда информацию по вкусу. И делаете с ним что хотите, я например в свое время опубликоввал его на сайте, что бы потом показать преподователям по стеганографии.
              Статья:
              http://www.securitylab.ru/contest/262791.php
              Вот только это сокрытие информации, а не ее кодирование. Хотя возможно я не вас неправильно понял. =]
                0
                Предложенный вами способ слишком простой для надёжного сокрытия факта пересылки информации и работает только с JPG и RAR. Причём следует отдать должное разработчикам этих форматов за мудрость. Скажем RAR один из немногих архиваторов которые не имеют проблем с мусором перед идентификатором.

                Короче годится от лохеров, но с ними удивительно эффективен и полезен ;)
                  +1
                  Вопрос простоты и надежности, это исключительно вопрос затрачеваемых на защиту(взлом) средств.
                  Способ элементарен, согласен, но в своей простоте как раз и привлекателен.
                    –1
                    про только рар и жипег - ложь
                      0
                      Вы не внимательно читали. Я специально употребил выражение "один из немногих". Это сочетание означает, что есть такие архиваторы которые тоже могут нормально работать с мусором, а есть которые не видят архива.
                        0
                        вы невнимательно читали.
                        /* Предложенный вами способ слишком простой для надёжного сокрытия факта пересылки информации и работает только с JPG и RAR. */
                        куча форматов позволяют дописывать данные без проблем в конец файла и вытянуть их оттуда не так уже и сложно :)
                    0
                    Хотя надо заметить, что и использование специализированных программ не является гарантией сокрытия самого факта передачи информации. Есть в природе детекторы и разрушители основных алгоритмов. Читать подробности по ссылкам в конце статьи стеганография в википедии.
                      0
                      Это было несколько иначе, действительно изображение немного модифицировалось, т.е. фишка в том, что сначало скрытие самого факта наличия информации, а затем его кодирование еще.
                      Хотя кто мешает в JPG уже зашифрованный файл вставить?
                      Хотя для скрытия и другие способы есть конечно же.

                      Еще вот что вспомнилось. Xerocs или какой то другой гигант из США в драйверы принтеров вставлял код, который при печати невидимо для глаза изменял немного вид текста или рисунка. Может на уровне растра, и можно было однозначно определить с какого принтера было распечатанно что то. Т.с. для борьбы с утечками информации.Я помню что правозащитники тогда возмутились, сказав, что в африке это будет способствовать борьбе авторитарных режимов против борцов за демократию. И для них это смертельная опасность. Чем дело кончилось я не знаю. Но все эти встроенные коды далеко неоднозначная штука.
                        0
                        Xerox конечно же :) Пардон...
                          0
                          Там не вид текста или рисунка, а с краю страницы микроточечками отбивалось где и когда напечатано.
                            0
                            Спасибо за уточнение
                      0
                      Насчет изображения, содержащего цифровую копию самого себя.

                      Для простоты возьмем ч/б (иллюстрацией может служить последнее фото). Судя по механизму кодирования - выжать там можно 1 бит на пиксель. И не забываем про два момента:

                      1. Белым пикселем "фиг что закодируешь", как и абсолютно черным.
                      2. А самые светлые и самые темные пиксели дают большой процент ошибок. Кроме того возможны просто повреждения изображения. Т.е. нужна избыточночть кодирования.

                      Это значит что ч/б изображение в RAW, имеющее размер 1 Мб (1024x1024 точек) понесет в себе максимум 128кб информации, а с учетом вышеназавнных факторов - отсилы 50-80кб. Т.е. в лучшем случае цифровая копия - это JPEG, причем с целой тележкой артефактов.

                      В цвете, имхо, ситуация будет почти такая же (цветное изображение визуально "жмется" лучше, но, уверен, шумов и ненагружаемых областей будет куда больше, чем на ч/б).

                      P.S. из революционных применений я вижу, прежде всего, хранение кодированной информации о товаре.
                      Раньше она занимала определенное место (штрихкод), что немного отнимало время кассира, а теперь может содержаться чуть ли не в каждом квардатном сантиметре упаковки.
                        0
                        /* из революционных применений я вижу, прежде всего, хранение кодированной информации о товаре.
                        Раньше она занимала определенное место (штрихкод), что немного отнимало время кассира, а теперь может содержаться чуть ли не в каждом квардатном сантиметре упаковки. */


                        тогда лучше посмотреть в сторону RFID

                      Only users with full accounts can post comments. Log in, please.