athmath Apr 12 2022 at 12:49

OCR за час? — Не думаю

4 min

14K

Инфосистемы Джет corporate blogProgramming*Algorithms*Machine learning*Artificial Intelligence

+29

Comments 7

S_A Apr 12 2022 at 13:51

Рассмотрите для полноты mmocr.

У меня в проде чудеса показывает. Не за час, но и домен посложнее. Сразу пробуйте топовые модели оттуда. Например detector DRRG + recognizer SAR

athmath Apr 13 2022 at 10:45

Звучит многообещающе. Спасибо.

Aspos Apr 12 2022 at 17:02

Если у вас на брусках цифры в одном шрифте и изображения одного размера, то попробуйте натренировать свою сетку на своих же изображениях, это даст куда лучший результат.

У меня была похожая проблема и сначала я сделал сетку которая определяла угол наклона изображения, потом сетку которая распознавала текст.

athmath Apr 13 2022 at 10:51

Изображения, вообще говоря, разного размера. В остальном полностью согласен, но это уже выбивается из концепции "за час".

А как делали разметку для определения угла наклона? Руками + аугментация поворотами, или ещё что-то?

Aspos Apr 13 2022 at 16:07

Ну, да, конечно. Вручную разметили часть картинок, остальные насинтезировали.

garbagecollected Apr 13 2022 at 08:42

Первый раз занимаетесь распознаванием текста. Сразу видно новичка. Сначала надо задать диапазон знаков распознавания 0123456789. Также Ч/б слепок надо делать шагами повышая контраст, уменьшая гамму. Для Tesseract также важно задавать размер шрифта в параметрах.

nikita_dol May 2 2022 at 16:21

Как оказалось, в Telegram для iOS есть встроенный OCR

Как и камера в iOS и текстовые поля, Telegram на iOS использует VNRecognizeTextRequest

тут код

Тоже как вариант решения вашей проблемы, если, конечно, есть возможность распознавать на iOS или macOS