Как стать автором
Обновить

Комментарии 10

1. Когда выйдет 2 часть? )
2. Все таки почему не tesseract? Проводили тесты на реальных документах? Тестировал на правах и СТС вроде корреткно распознает.
3. Приводить документы к размеру шаблона и в нем уже по шаблну выделять боксы? Так не работает ?
4. В итоге так и не понял какой пайплайн использовали

  1. Постараемся к концу этого года, если что в начале следующего)

  2. Tesseract привязан к одному типу шрифтов, не универсален и проблемно каждый раз подстраивать шрифты По скорости медленнее. Мы писали свои бенчи, цифры уже не помню но можно посмотреть на эту статью, у нас +- также:

    Если еще учитывать что EasyOCR это CRAFT и CRNN, то обычный классификатор будет явно быстрее работать CRNN в связке с CRAFT.

  3. По шаблону не выйдет, бывает что в одной стране разные типы одного документа, а также это фото документов с наклоном по оси z и бывают части документов присылают, что-то наклеено и т.д.. Сегментацией быстрее и лучше выходит.

  4. Вначале размечаем нужные нам области документа, обучаем модель сегментации. Далее если матричные шрифты например и плюс на документах потертости и часто сложно что-то разобрать, то размечаем датасет + синтетику можно нагнать и обучаем CRNN.

    Если текст различим и шрифты более или менее плотные, то используем CRAFT и далее боксы символов отправляем классификатору(тоже обученному с учетом этих шрифтов также можно целый набор шрифтов взять и сделать синтетику, с аугментацией растяжения и поворотов и т.д.).

EasyOCR

в Colab скан договора
----
%%timeit
CPU times: user
5min 57s, sys: 6.13 s, total: 6min 3s Wall time: 6min 2s

Не совсем понял вопроса. Ссылки на colab нет, если это скан договора то понятно почему так долго. В примере на medium где приводятся тесты на вход подавались изображение с одним полем текста.

Имелось ввиду что проводили тест в Colab(CPU) для распознавания договора

А зачем вам документы пассажиров? Я вот не помню чтоб какое-то из 4-х установленных у меня приложений такси просило их в моей стране (Украина).

Имеется в виду документы водителей при прохождении фотоконтроля.

А что именно сегментировали? Как размечали документы? Можете подробнее рассказать?

  1. Сегментировали интересующие нас области(поля) из документа и присваивали им свой класс.

  2. Как и написано в статье выше с помощью labelme(он написан на PyQt можно через pip поставить). Размечали полигонами, так точнее обозначить нужную область.

  3. Приложение labelme интуитивно понятно, примеры есть в репозитории. Просто открываем папку с фото и размечаем, после рядом с фото создается json файл с координатами полигонов и метками.

по инструментам и технологии разметки то понятно,
не понятно п.1, что именно выделяли...
допустим права:
вы выделяли полигоном область где ФИО вместе с ФИО?
сколько примерно размер датасета?
сеть тренировалась сразу на всех документах?
как определяли вид документа?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий