Search
Write a publication
Pull to refresh
0
0
Send message

Для EasyOCR надо было подобрать подходящее разрешение входного изображения, потому что "из коробки" он обучен под определенный масштаб.

Так обычно отвечают в духе: "очень жаль, вы нам не подошли". Никто не скажет, что взяли другого человека, потому что у него больше стаж в резюме.

Ответ простой: нашелся другой человек, который тоже ответил на 5+, и у него либо больше стаж в резюме, либо он работал с технологиями из вакансии (не надо учить).

Не думали, что дообучение PaddleOCR могло бы быть более эффективным решением в плане общих затрат и скорости инференса?

Такое решение доступно лишь единицам. Огромное количество ресурсов для распознавания одного типа документов. Большой объем данных, команда разметки, отдельная модель на каждый этап.

Кстати, в статье опущен момент производительности - насколько получившийся пайплайн медленнее/быстрее опенсорсных решений?

Можно добавить сравнение с обычной классификацией изображения.

Было бы интересно также поглядеть фактические цифры: сколько времени уходит на такой-то датасет и сколько видеопамяти для этого нужно. Тут же можно добавить, как сильно размер батча влияет на скорость обработки датасета. Поскольку сравниваются пары изображение-текст, то это должно влиять очень сильно.

Information

Rating
11,647-th
Registered
Activity