Как стать автором
Обновить
5
0
Ilya Gradina @ilgrad

Data Scientist

Отправить сообщение

Не совсем понял вопроса. Ссылки на colab нет, если это скан договора то понятно почему так долго. В примере на medium где приводятся тесты на вход подавались изображение с одним полем текста.

  1. Сегментировали интересующие нас области(поля) из документа и присваивали им свой класс.

  2. Как и написано в статье выше с помощью labelme(он написан на PyQt можно через pip поставить). Размечали полигонами, так точнее обозначить нужную область.

  3. Приложение labelme интуитивно понятно, примеры есть в репозитории. Просто открываем папку с фото и размечаем, после рядом с фото создается json файл с координатами полигонов и метками.

спасибо). Свое решение проще кастомизировать, так как компания представлена во многих странах где не только латиница и кириллица то вряд-ли найдутся готовые продукты которые соответствовали бы DoD. Насчет NFC - нельзя точно утверждать что у всех водителей телефон с поддержкой NFC, не все документы имеют формат ID карты и поддержку NFC, многие документы в бумажном виде со всеми отсюда вытекающими(износ бумаги и т.д.).

спасибо). У нас есть отдельная liveness модель которая проверяет что фото не фото фотографии или с экрана смартфона и прочее. В случае фото ксерокопии думаю на этапе сегментации документ не пройдет, если только документ не сделать одним цветом и размером.

Имеется в виду документы водителей при прохождении фотоконтроля.

  1. Постараемся к концу этого года, если что в начале следующего)

  2. Tesseract привязан к одному типу шрифтов, не универсален и проблемно каждый раз подстраивать шрифты По скорости медленнее. Мы писали свои бенчи, цифры уже не помню но можно посмотреть на эту статью, у нас +- также:

    Если еще учитывать что EasyOCR это CRAFT и CRNN, то обычный классификатор будет явно быстрее работать CRNN в связке с CRAFT.

  3. По шаблону не выйдет, бывает что в одной стране разные типы одного документа, а также это фото документов с наклоном по оси z и бывают части документов присылают, что-то наклеено и т.д.. Сегментацией быстрее и лучше выходит.

  4. Вначале размечаем нужные нам области документа, обучаем модель сегментации. Далее если матричные шрифты например и плюс на документах потертости и часто сложно что-то разобрать, то размечаем датасет + синтетику можно нагнать и обучаем CRNN.

    Если текст различим и шрифты более или менее плотные, то используем CRAFT и далее боксы символов отправляем классификатору(тоже обученному с учетом этих шрифтов также можно целый набор шрифтов взять и сделать синтетику, с аугментацией растяжения и поворотов и т.д.).

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность