Не можем оспорить ваше утверждение. Действительно, на любой конференции/семинаре после выступлений звучат самые разные заявления. Иногда верные, иногда безумные, иногда возникшие в результате недопонимания. Также ясно, что процитированная вами первая фраза может вызывать весьма эмоциональную реакцию. Однако составлялась она в здравом уме и твердой памяти, и она верна. А эмоциональный фон мог помешать увидеть, что объектом оценки в первой фразе выступает архитектура, а во второй приводятся экспериментальные данные о конкретной модели процессора. Производительность процессора определяется, помимо архитектуры, тактовой частотой (и не только, но не будем усложнять). Тактовая частота определяется в большой степени тех. процессом. Для нас представляется важным, что архитектура действительно является эффективной, как и обещал производитель. Это значит, что мы продолжим тратить своё время (а, следовательно, деньги) на освоение третьей основной для нас архитектуры (после Intel и ARM) в расчете на дальнейшее повышение производительности за счет смены тех. процесса. Догонять по тех. процессу всяко легче, чем усовершенствовать архитектуру. Поймите правильно — продукты мы делаем уже сейчас, производительности хватает. Но, как говорила Черная Королева, «здесь… приходится бежать со всех ног, чтобы только остаться на том же месте». И мы видим у МЦСТ приличный задел на этот самый бег.
Замеченное Вами различие в разы объясняется в-основном следующей причиной:
1) в некоторых страницах текстовая информация занимает мало места, например, в документах типа «Приказ» с простой формулировкой — это способствует быстрому распознаванию;
2) а некоторые страницы напечатаны мелким шрифтом, например, спецификации — это приводит к большим затратам времени Tesseract.
Быстродействие Tesseract для случая с мелким шрифтом снижается при сканировании с малым разрешением (150 dpi).
Также частый случай медленного распознавания — страницы со сложным фоном (например, свидетельства о постановке на учет в налоговом органе), именно для такого фона бинаризация дает ускорение обработки.
Использование медианного фильтра губительно для маленьких шрифтов — съедаются засечки, исчезает внутрибуквенный просвет. В случаях, когда требуется фильтрация, мы используем ускоренный билатеральный фильтр.
Что касается подмешивания шума, то оно может существенно «озадачить» (замедлить) переборные схемы поиска и сегментации строк, когда они основаны на компонентах связности. Нашей же целью было ускорение, а не замедление системы.
Гипотетически, подмешивание шума на фоне существенного замедления могло бы дать некоторое повышение качества, но это справедливо только для алгоритмов, использующих для распознавания растр пониженного разрешения, причем понижающих разрешение усреднением, а не по ближайшему соседу. То есть — совсем не наш случай.
В целом, подмешивание шума при оптимальном (а не завышенном) разрешении изображения — это метод визуализации, улучшения «общего вида» изображения, а вовсе не подходящий для распознавания деталей метод фильтрации.
Раньше мы использовали Microsoft LifeCam Studio — 5 300 руб по яндексу. В процессе создания промышленного образца мы планируем улучшать все характеристики устройства, в том числе и снижать конечную цену.
У нас проблем с перегревом не возникало, Odroid находится под большими нагрузками всего несколько секунд (непосредственно распознавание документа).
Что касается быстрых и медленных ядер, то для наших задач ядра А7 оказываются более, чем в 10 раз медленнее А15. Поэтому при распараллеливании кода мы ограничиваем количество потоков до 4, чтобы помочь операционной системе задействовать именно быстрые ядра.
Проверка на аутентичность нами не производится по нескольким причинам. Во-первых, в видимом свете не так уж и много можно проверить, на части паспортов имеются голограммы, искать голограммы и проверять их мы умеем (в нащем блоге есть две статьи посвященные этому: Статья 1 и Статья 2), но они мешают распознаванию и базовая подсветка сделана так, чтобы они не были видны камере. Для проверки голограмм можно сделать специальную подсветку и разбить цикл работы на этап распознавания и этап проверки подлинности, но это усложнит устройство и не будет работать для старых паспортов и второй страницы паспорта. На старых паспортах можно проверить только, что третья страница паспорта ламинирована. Кроме того, можно проверить грубые нарушения целостности защитных элементов окаймления фотографии, что позволит находить грубые подделки, сделать такой алгоритм у нас в планах. Для более глубокой проверки уже необходимо использовать ИК и УФ диапазоны.
Про скорость по нашему мнению выдача пропуска, заполнение паспортных данных в банке не должна раздражать, вы правильно говорите, что человек не успевает заметить, как уже все — пропуск получен, это его и не раздражает, в этом и состоит наша цель.
На сайте AliExpress цены на данную модель камеры начинаются от 3 400 рублей.
Наш движок распознавания паспортов позволяет существенно поднять качество распознавания документа в целом при работе с видеопоследовательностью за счет объединения распознанной информации с разных кадров.
Приведенная Вами ссылка вызывает у любого понимающего человека неподдельное негодование. Но не потому, что в планшете плохо припаяны провода или отсутствуют шурупы, а потому, медицинским работникам продали макет под видом серийного прибора. В процессе же разработки «кустарщина» — это нормально, поскольку позволяет ускорить разработку. Обратите внимание, что даже известные дизайнеры использую модели из пенопласта в процессе разработки (http://www.artlebedev.ru/everything/barrier/pitcher/process/). Качественным и красивым должен быть серийный прибор, поставляемый заказчику.
Задача распознавания паспорта вычислительно сложная, поэтому требуется достаточно мощный процессор. Выбирали мы с «запасом». Поэтому мы выбрали достаточно доступное и производительное решение — Odroid-XU4. Это не означает, что в будущем мы не перейдем на другие модели мини-компьютеров.
Мы двигаемся в сторону избавления ПАК от лишних кнопок. Чтобы избавиться от кнопки начала распознавания, мы планируем добавить в программу модуль, отслеживающий наличие нового документа на рабочей области.
Если мы правильно поняли, то в Вашем комментарии маскируется два вопроса:
1. Зачем изобретать велосипед, когда давно продаются планшетные сканеры
Время сканирования документа А5 на самых быстрых планшетных сканерах составляет порядка 3 секунд. После получения изображения, процедура обработки полученного изображения и распознавания занимает порядка от 1 до 10 секунд (в зависимости от производительности ПК). Наше решение за счет мгновенного получения кадров позволяет распознать все паспортные данные за 1-2 секунды.
2. Зачем встраивать компьютер в сканер, какое преимущество это дает.
Тут может быть несколько соображений. Во-первых, не свегда есть возможность модифицировать информационную систему (встроить API распознавания паспорта). Во-вторых, описанный ПАК может вообще функционировать без компьютера (будучи подключенным, например, к турникету на проходной).
В следующей модели мы планируем совсем отказаться от кнопки начала распознавания, добавив в программу модуль, отслеживающий наличие нового документа на рабочей области.
Мы создавали демонстратор технологии, эргономику мы планируем отработать при переходе к промышленным образцам. В данной модели кнопка инициирует распознавание, данные передаются автоматически по сигналу системы распознавания об окончании работы.
Работа с XU4 у нас отработана, мы решили использовать знакомую модель, C2 с OTG рассматривали и рассматриваем на будушее, уже для промышленого применения, пока остаются вопросы с производительностью.
В нашем устройстве все вычисления выполняются на встроенном миникомпьютре Odroid XU4, а запрограммированный микроконтролллер Arduino micro используется в качестве эмуляции клавиатуры.
Мы выбрали именно камеру Microsoft потому, что она отлично управляется. Можно задать фокусное расстояние и все параметры камеры, причем не только под Windows, но под Linux.
1) в некоторых страницах текстовая информация занимает мало места, например, в документах типа «Приказ» с простой формулировкой — это способствует быстрому распознаванию;
2) а некоторые страницы напечатаны мелким шрифтом, например, спецификации — это приводит к большим затратам времени Tesseract.
Быстродействие Tesseract для случая с мелким шрифтом снижается при сканировании с малым разрешением (150 dpi).
Также частый случай медленного распознавания — страницы со сложным фоном (например, свидетельства о постановке на учет в налоговом органе), именно для такого фона бинаризация дает ускорение обработки.
Что касается подмешивания шума, то оно может существенно «озадачить» (замедлить) переборные схемы поиска и сегментации строк, когда они основаны на компонентах связности. Нашей же целью было ускорение, а не замедление системы.
Гипотетически, подмешивание шума на фоне существенного замедления могло бы дать некоторое повышение качества, но это справедливо только для алгоритмов, использующих для распознавания растр пониженного разрешения, причем понижающих разрешение усреднением, а не по ближайшему соседу. То есть — совсем не наш случай.
В целом, подмешивание шума при оптимальном (а не завышенном) разрешении изображения — это метод визуализации, улучшения «общего вида» изображения, а вовсе не подходящий для распознавания деталей метод фильтрации.
Что касается быстрых и медленных ядер, то для наших задач ядра А7 оказываются более, чем в 10 раз медленнее А15. Поэтому при распараллеливании кода мы ограничиваем количество потоков до 4, чтобы помочь операционной системе задействовать именно быстрые ядра.
Про скорость по нашему мнению выдача пропуска, заполнение паспортных данных в банке не должна раздражать, вы правильно говорите, что человек не успевает заметить, как уже все — пропуск получен, это его и не раздражает, в этом и состоит наша цель.
Наш движок распознавания паспортов позволяет существенно поднять качество распознавания документа в целом при работе с видеопоследовательностью за счет объединения распознанной информации с разных кадров.
1. Зачем изобретать велосипед, когда давно продаются планшетные сканеры
Время сканирования документа А5 на самых быстрых планшетных сканерах составляет порядка 3 секунд. После получения изображения, процедура обработки полученного изображения и распознавания занимает порядка от 1 до 10 секунд (в зависимости от производительности ПК). Наше решение за счет мгновенного получения кадров позволяет распознать все паспортные данные за 1-2 секунды.
2. Зачем встраивать компьютер в сканер, какое преимущество это дает.
Тут может быть несколько соображений. Во-первых, не свегда есть возможность модифицировать информационную систему (встроить API распознавания паспорта). Во-вторых, описанный ПАК может вообще функционировать без компьютера (будучи подключенным, например, к турникету на проходной).