На следующей неделе в Барселоне состоится крупнейшее событие в мире мобильной индустрии — международная выставка Mobile World Congress 2017 (с 27 февраля по 2 марта 2017 г.). Команда Smart Engines покажет новые разработки по распознаванию и обработке видеопотока на мобильных устройствах: распознавание ID различных стран, детекция голограмм и динамическое панорамирование документов.
Мы подготовили небольшой обзор новых технологий (+ видео), которые покажем в Барселоне. Добро пожаловать под кат!
1. Распознавание ID различных стран на мобильных устройствах
В настоящее время в мире распознавание идентификационных документов в мобильных приложениях зачастую ограничивается извлечением данных специальной машиночитаемой зоной (MRZ), присутствующей на некоторых типах документов. При этом на многих типах ID и паспортах этой зоны нет. И таких документов в мире сотни.
В связи с этим мы занялись задачей разработки расширяемого решения, которое позволяет распознавать, помимо извлечения данных MRZ, всю релевантную человекочитаемую текстовую информацию, а также искать фотографии и подписи на широком классе документов.
В Smart IDReader реализованы сверхбыстрая идентификация типа документа до распознавания, субпиксельная локализация информационных (текстовых и графических) элементов, а также распознавание текста сверхлегкими искусственными нейронными сетями (ИНС).
Как мы знаем, при распознавании непосредственно на мобильном телефоне ключевые вопросы — быстродействие и энергоэффективность, и привычный подход “сначала распознаем все, а потом осмыслим текст” не приводит к приемлемому результату. Знание типа документа позволяет резко сократить вычислительную сложность, но проблема в том, что число этих типов в нашем случае исчисляется сотнями. Поэтому ключевым требованием к классификатору типа документа является его сублинейная сложность по числу типов документов.
Высокая производительность наших ИНС обеспечивается как за счет глубокой технической оптимизации вычислений на низком уровне под каждую вычислительную платформу, так и использованием передовых технологий обобщающего обучения и аугментации данных с использованием моделирования искажений.
Мы построили уникальную технологию “one-shot augmentation”, позволяющую создавать высокоточные ИНС на основе небольшого количества экземпляров реальных данных.
Кроме российских документов (Паспорт, СНИЛС, Водительские удостоверения, СТС) сейчас поддерживаются документы США (Паспорт), Великобритании (Водительские удостоверения, Паспорт), Германии (Паспорт, ID карты, Водительские удостоверения), Австрии (ID карты, Водительские удостоверения), Испании (ID карты), Филиппин (Паспорт), Малайзии (Удостоверения личности MyKad), Казахстана (Удостоверения личности), Японии (Водительские удостоверения, Карточка медицинского страхования), Китая (Паспорт), а также любые документы с машиночитаемой зоной (MRZ) и банковские карты (кредитные и дебетовые). Список документов расширяется.
Демо программу Smart IDReader можно скачать в App store и Google play.
2. Детекция голограмм в видеопотоке на мобильных устройствах
Человек легко отличит подлинник документа с голограммой от его ксерокопии, просто покачивая документ перед собой. До последнего времени на рынке не было продукта, способного провести эту проверку автоматически. Это связано с тем, что без технологии установления соответствия в видеопотоке с субпиксельной точностью, чрезвычайно трудно отличить голограмму от движения статичной пестрой картинки.
Нам удалось достигнуть требуемых показателей геометрической точности, а также решить другую задачу — устойчиво отличать изменения освещенности от переливов голограммы. Теория для таких задач известна давно и называется цветовой константностью, но она требует уже откалиброванного прибора, что невозможно в случае использования мобильных телефонов конечными пользователями.
На видео демонстрируется детекция голограммы на загранпаспорте РФ.
3. Динамическое прореживание и панорамирование документов в видеопотоке (видеосканирование)
Задача динамического панорамирования условно плоской подстилающей поверхности часто возникает при аэрофотосъемке. При этом скорость смещения изображения в кадре не обязана быть постоянной. Особенно значительные колебания скорости возникают при съемке с коптеров. Технология динамического прореживания заключается в удалении или усреднении кадров с малым пространственным смещением. В результате порождается видеопоток с меньшим объемом, выровненной наблюдаемой скоростью и пониженным уровнем шума на участках, где было возможно усреднение. Параллельно возможно построение единого изображения-панорамы. Данная задача представляется наиболее актуальной при съемке с ограничениями на объем накопителей и ширину канала связи.
На видео демонстрируется использование такого видеосканирования для получения качественного изображения чека нестандартного размера.
Ждем вас на нашем стенде на MWC 2017 ( Hall 7 Stand 7G84 ) и с удовольствием расскажем потом как это было!