ilgrad 22 дек 2021 в 14:15

Как мы распознаем фото документов пользователей. Часть I

7 мин

13K

Блог компании inDrive.TechPython*Обработка изображений*Машинное обучение*

+18

Комментарии 10

dimnsk 22 дек 2021 в 19:46

1. Когда выйдет 2 часть? )
2. Все таки почему не tesseract? Проводили тесты на реальных документах? Тестировал на правах и СТС вроде корреткно распознает.
3. Приводить документы к размеру шаблона и в нем уже по шаблну выделять боксы? Так не работает ?
4. В итоге так и не понял какой пайплайн использовали

ilgrad 23 дек 2021 в 11:49

Постараемся к концу этого года, если что в начале следующего)
Tesseract привязан к одному типу шрифтов, не универсален и проблемно каждый раз подстраивать шрифты По скорости медленнее. Мы писали свои бенчи, цифры уже не помню но можно посмотреть на эту статью, у нас +- также:
Если еще учитывать что EasyOCR это CRAFT и CRNN, то обычный классификатор будет явно быстрее работать CRNN в связке с CRAFT.
По шаблону не выйдет, бывает что в одной стране разные типы одного документа, а также это фото документов с наклоном по оси z и бывают части документов присылают, что-то наклеено и т.д.. Сегментацией быстрее и лучше выходит.
Вначале размечаем нужные нам области документа, обучаем модель сегментации. Далее если матричные шрифты например и плюс на документах потертости и часто сложно что-то разобрать, то размечаем датасет + синтетику можно нагнать и обучаем CRNN.
Если текст различим и шрифты более или менее плотные, то используем CRAFT и далее боксы символов отправляем классификатору(тоже обученному с учетом этих шрифтов также можно целый набор шрифтов взять и сделать синтетику, с аугментацией растяжения и поворотов и т.д.).

dimnsk 3 янв 2022 в 23:00

EasyOCR

в Colab скан договора
----
%%timeit
CPU times: user 5min 57s, sys: 6.13 s, total: 6min 3s Wall time: 6min 2s

ilgrad 3 янв 2022 в 23:34

Не совсем понял вопроса. Ссылки на colab нет, если это скан договора то понятно почему так долго. В примере на medium где приводятся тесты на вход подавались изображение с одним полем текста.

dimnsk 4 янв 2022 в 10:40

Имелось ввиду что проводили тест в Colab(CPU) для распознавания договора

IGR2014 26 дек 2021 в 18:49

А зачем вам документы пассажиров? Я вот не помню чтоб какое-то из 4-х установленных у меня приложений такси просило их в моей стране (Украина).

ilgrad 27 дек 2021 в 10:21

Имеется в виду документы водителей при прохождении фотоконтроля.

dimnsk 3 янв 2022 в 22:57

А что именно сегментировали? Как размечали документы? Можете подробнее рассказать?

ilgrad 3 янв 2022 в 23:30

Сегментировали интересующие нас области(поля) из документа и присваивали им свой класс.
Как и написано в статье выше с помощью labelme(он написан на PyQt можно через pip поставить). Размечали полигонами, так точнее обозначить нужную область.
Приложение labelme интуитивно понятно, примеры есть в репозитории. Просто открываем папку с фото и размечаем, после рядом с фото создается json файл с координатами полигонов и метками.

dimnsk 4 янв 2022 в 10:38

по инструментам и технологии разметки то понятно,
не понятно п.1, что именно выделяли...
допустим права:
вы выделяли полигоном область где ФИО вместе с ФИО?
сколько примерно размер датасета?
сеть тренировалась сразу на всех документах?
как определяли вид документа?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий