На сайте AliExpress цены на данную модель камеры начинаются от 3 400 рублей.
Наш движок распознавания паспортов позволяет существенно поднять качество распознавания документа в целом при работе с видеопоследовательностью за счет объединения распознанной информации с разных кадров.
Приведенная Вами ссылка вызывает у любого понимающего человека неподдельное негодование. Но не потому, что в планшете плохо припаяны провода или отсутствуют шурупы, а потому, медицинским работникам продали макет под видом серийного прибора. В процессе же разработки «кустарщина» — это нормально, поскольку позволяет ускорить разработку. Обратите внимание, что даже известные дизайнеры использую модели из пенопласта в процессе разработки (http://www.artlebedev.ru/everything/barrier/pitcher/process/). Качественным и красивым должен быть серийный прибор, поставляемый заказчику.
Задача распознавания паспорта вычислительно сложная, поэтому требуется достаточно мощный процессор. Выбирали мы с «запасом». Поэтому мы выбрали достаточно доступное и производительное решение — Odroid-XU4. Это не означает, что в будущем мы не перейдем на другие модели мини-компьютеров.
Мы двигаемся в сторону избавления ПАК от лишних кнопок. Чтобы избавиться от кнопки начала распознавания, мы планируем добавить в программу модуль, отслеживающий наличие нового документа на рабочей области.
Если мы правильно поняли, то в Вашем комментарии маскируется два вопроса:
1. Зачем изобретать велосипед, когда давно продаются планшетные сканеры
Время сканирования документа А5 на самых быстрых планшетных сканерах составляет порядка 3 секунд. После получения изображения, процедура обработки полученного изображения и распознавания занимает порядка от 1 до 10 секунд (в зависимости от производительности ПК). Наше решение за счет мгновенного получения кадров позволяет распознать все паспортные данные за 1-2 секунды.
2. Зачем встраивать компьютер в сканер, какое преимущество это дает.
Тут может быть несколько соображений. Во-первых, не свегда есть возможность модифицировать информационную систему (встроить API распознавания паспорта). Во-вторых, описанный ПАК может вообще функционировать без компьютера (будучи подключенным, например, к турникету на проходной).
В следующей модели мы планируем совсем отказаться от кнопки начала распознавания, добавив в программу модуль, отслеживающий наличие нового документа на рабочей области.
Мы создавали демонстратор технологии, эргономику мы планируем отработать при переходе к промышленным образцам. В данной модели кнопка инициирует распознавание, данные передаются автоматически по сигналу системы распознавания об окончании работы.
Работа с XU4 у нас отработана, мы решили использовать знакомую модель, C2 с OTG рассматривали и рассматриваем на будушее, уже для промышленого применения, пока остаются вопросы с производительностью.
В нашем устройстве все вычисления выполняются на встроенном миникомпьютре Odroid XU4, а запрограммированный микроконтролллер Arduino micro используется в качестве эмуляции клавиатуры.
Мы выбрали именно камеру Microsoft потому, что она отлично управляется. Можно задать фокусное расстояние и все параметры камеры, причем не только под Windows, но под Linux.
ПАК — это не только ящик (который является понятным устройством), но и распознающая программа (которую реализовать не так легко). Если кто-то (в том числе и безликий китаец) украдет наш ПАК и будет его продавать, то мы обратимся к специалистам. Насчет внесения изменений в ПАК — регистратор результатов интеллектуальной деятельности (РИД) проводит поиск на предмет совпадения, по заключению которого станет понятно достаточно ли Ваших изменений для регистрации нового РИД.
Спасибо за интересные вопросы! Ниже ответы по пунктам:
1) База сделана в различных условиях. Менялись устройства, освещение, снимали разные люди (иногда даже пальцы на картах присутствуют). При этом в основном снимали карточку «на весу», стол использовали в основном для получения рекламных фотографий.
2) Обучение свёрточных сетей производилось на искусственно созданной базе изображений (благо целевой шрифт известен – OCR-B) с последующей аугментацией. Ни одно изображение из упомянутых 750 картинок не использовалась для обучения.
3) Шрифт на картах один (OCR-B) и места для творчества платежные системы здесь не предоставляют. Фон придумывает банк. Было замечено использование OCR-A шрифта на indent-картах некоторых банков. Но для нас не проблема, так как мы используем искусственно созданную обучающую выборку.
4) Пестрый высокочастотный фон действительно создает дополнительные трудности. В этом месте нас спасает тот факт, что алгоритм поиска анализирует изображение границ, зная, что ищется три геометрически описанных строки. Такая задача похожа чем-то с распознаванием у окулиста цветных зашумленных карточек с цифрами: без знания того, что на карточках цифры распознать на них что-то разумное проблематично.
5) В настоящий момент наше SDK не распознает CSV код. При этом понимаем, что эта задача представляет собой omni-шрифтовое распознавание текстовой строки, которое у нас имплементировано.
Хотелось бы выразить отдельную благодарность автору очень удобного редактора LaTeX -> habrahabr, который сэкономил огромное количество времени и сил при написании статьи.
Наш движок распознавания паспортов позволяет существенно поднять качество распознавания документа в целом при работе с видеопоследовательностью за счет объединения распознанной информации с разных кадров.
1. Зачем изобретать велосипед, когда давно продаются планшетные сканеры
Время сканирования документа А5 на самых быстрых планшетных сканерах составляет порядка 3 секунд. После получения изображения, процедура обработки полученного изображения и распознавания занимает порядка от 1 до 10 секунд (в зависимости от производительности ПК). Наше решение за счет мгновенного получения кадров позволяет распознать все паспортные данные за 1-2 секунды.
2. Зачем встраивать компьютер в сканер, какое преимущество это дает.
Тут может быть несколько соображений. Во-первых, не свегда есть возможность модифицировать информационную систему (встроить API распознавания паспорта). Во-вторых, описанный ПАК может вообще функционировать без компьютера (будучи подключенным, например, к турникету на проходной).
1) База сделана в различных условиях. Менялись устройства, освещение, снимали разные люди (иногда даже пальцы на картах присутствуют). При этом в основном снимали карточку «на весу», стол использовали в основном для получения рекламных фотографий.
2) Обучение свёрточных сетей производилось на искусственно созданной базе изображений (благо целевой шрифт известен – OCR-B) с последующей аугментацией. Ни одно изображение из упомянутых 750 картинок не использовалась для обучения.
3) Шрифт на картах один (OCR-B) и места для творчества платежные системы здесь не предоставляют. Фон придумывает банк. Было замечено использование OCR-A шрифта на indent-картах некоторых банков. Но для нас не проблема, так как мы используем искусственно созданную обучающую выборку.
4) Пестрый высокочастотный фон действительно создает дополнительные трудности. В этом месте нас спасает тот факт, что алгоритм поиска анализирует изображение границ, зная, что ищется три геометрически описанных строки. Такая задача похожа чем-то с распознаванием у окулиста цветных зашумленных карточек с цифрами: без знания того, что на карточках цифры распознать на них что-то разумное проблематично.
5) В настоящий момент наше SDK не распознает CSV код. При этом понимаем, что эта задача представляет собой omni-шрифтовое распознавание текстовой строки, которое у нас имплементировано.