Комментарии 10
1. Когда выйдет 2 часть? )
2. Все таки почему не tesseract? Проводили тесты на реальных документах? Тестировал на правах и СТС вроде корреткно распознает.
3. Приводить документы к размеру шаблона и в нем уже по шаблну выделять боксы? Так не работает ?
4. В итоге так и не понял какой пайплайн использовали
Постараемся к концу этого года, если что в начале следующего)
Tesseract привязан к одному типу шрифтов, не универсален и проблемно каждый раз подстраивать шрифты По скорости медленнее. Мы писали свои бенчи, цифры уже не помню но можно посмотреть на эту статью, у нас +- также:
Если еще учитывать что EasyOCR это CRAFT и CRNN, то обычный классификатор будет явно быстрее работать CRNN в связке с CRAFT.
По шаблону не выйдет, бывает что в одной стране разные типы одного документа, а также это фото документов с наклоном по оси z и бывают части документов присылают, что-то наклеено и т.д.. Сегментацией быстрее и лучше выходит.
Вначале размечаем нужные нам области документа, обучаем модель сегментации. Далее если матричные шрифты например и плюс на документах потертости и часто сложно что-то разобрать, то размечаем датасет + синтетику можно нагнать и обучаем CRNN.
Если текст различим и шрифты более или менее плотные, то используем CRAFT и далее боксы символов отправляем классификатору(тоже обученному с учетом этих шрифтов также можно целый набор шрифтов взять и сделать синтетику, с аугментацией растяжения и поворотов и т.д.).
А зачем вам документы пассажиров? Я вот не помню чтоб какое-то из 4-х установленных у меня приложений такси просило их в моей стране (Украина).
А что именно сегментировали? Как размечали документы? Можете подробнее рассказать?
Сегментировали интересующие нас области(поля) из документа и присваивали им свой класс.
Как и написано в статье выше с помощью labelme(он написан на PyQt можно через pip поставить). Размечали полигонами, так точнее обозначить нужную область.
Приложение labelme интуитивно понятно, примеры есть в репозитории. Просто открываем папку с фото и размечаем, после рядом с фото создается json файл с координатами полигонов и метками.
Как мы распознаем фото документов пользователей. Часть I