Комментарии / Профиль ilgrad / Хабр

Ilya Gradina@ilgrad

Data Scientist

Подписчики

Как мы распознаем фото документов пользователей. Часть I

ilgrad 3 янв 2022 в 20:34

Не совсем понял вопроса. Ссылки на colab нет, если это скан договора то понятно почему так долго. В примере на medium где приводятся тесты на вход подавались изображение с одним полем текста.

Как мы распознаем фото документов пользователей. Часть I

ilgrad 3 янв 2022 в 20:30

Сегментировали интересующие нас области(поля) из документа и присваивали им свой класс.
Как и написано в статье выше с помощью labelme(он написан на PyQt можно через pip поставить). Размечали полигонами, так точнее обозначить нужную область.
Приложение labelme интуитивно понятно, примеры есть в репозитории. Просто открываем папку с фото и размечаем, после рядом с фото создается json файл с координатами полигонов и метками.

Как мы распознаем фото документов пользователей. Часть II

ilgrad 30 дек 2021 в 22:07

спасибо). Свое решение проще кастомизировать, так как компания представлена во многих странах где не только латиница и кириллица то вряд-ли найдутся готовые продукты которые соответствовали бы DoD. Насчет NFC - нельзя точно утверждать что у всех водителей телефон с поддержкой NFC, не все документы имеют формат ID карты и поддержку NFC, многие документы в бумажном виде со всеми отсюда вытекающими(износ бумаги и т.д.).

Как мы распознаем фото документов пользователей. Часть II

ilgrad 30 дек 2021 в 15:58

спасибо). У нас есть отдельная liveness модель которая проверяет что фото не фото фотографии или с экрана смартфона и прочее. В случае фото ксерокопии думаю на этапе сегментации документ не пройдет, если только документ не сделать одним цветом и размером.

Как мы распознаем фото документов пользователей. Часть I

ilgrad 27 дек 2021 в 07:21

Имеется в виду документы водителей при прохождении фотоконтроля.

Как мы распознаем фото документов пользователей. Часть I

ilgrad 23 дек 2021 в 08:49

Постараемся к концу этого года, если что в начале следующего)
Tesseract привязан к одному типу шрифтов, не универсален и проблемно каждый раз подстраивать шрифты По скорости медленнее. Мы писали свои бенчи, цифры уже не помню но можно посмотреть на эту статью, у нас +- также:
Если еще учитывать что EasyOCR это CRAFT и CRNN, то обычный классификатор будет явно быстрее работать CRNN в связке с CRAFT.
По шаблону не выйдет, бывает что в одной стране разные типы одного документа, а также это фото документов с наклоном по оси z и бывают части документов присылают, что-то наклеено и т.д.. Сегментацией быстрее и лучше выходит.
Вначале размечаем нужные нам области документа, обучаем модель сегментации. Далее если матричные шрифты например и плюс на документах потертости и часто сложно что-то разобрать, то размечаем датасет + синтетику можно нагнать и обучаем CRNN.
Если текст различим и шрифты более или менее плотные, то используем CRAFT и далее боксы символов отправляем классификатору(тоже обученному с учетом этих шрифтов также можно целый набор шрифтов взять и сделать синтетику, с аугментацией растяжения и поворотов и т.д.).