Comments 10
OCR использует искусственный интеллект для поиска и распознавания текста на изображениях.
Прям таки интеллект… Может, все же нейронные сети?
+1
Название статьи вроде «Поисковая оптимизация с помощью SEO» или Соединённые Штаты США.
+1
А на чем тестировали качество?
Интересует виды изображений, размер выборки, мера качества.
0
Ну вот один в один я точно также прошел такой же путь. Tesseract изначально делался для распознавания сканированного текста, который сканировали именно с отдельных листов. Он и заточен под четкий ровный текст. А у чеков замятия. С камеры прилетит чек под наклоном, тенями, разными артефактами. И никакие фильтры OpenCV не помогут. И в разных местах замятый чек будет иметь разный наклон букв. Бинаризация, выравнивание, медленная обработка… Так что tesseract не для таких задач…
0
А ABBYY Mobile Capture не тестировали?
https://www.abbyy.com/mobile-capture-sdk/
0
когдато пришлось заниматься подобным вопросом, моей задачей было поддержание распознования текстов с ироглифами и tesseract справлялся с этой задачей лучше других. Даже коммерческие продукты такой поддержкой не удасужились, либо с низким качеством распознования. Правда, это было лет 5 назад и возможно сейчас все по другому.
И вот насколько помню, тессерак предоставлял несколько опций распознования, построчно, побуквенно, всем текстом. И почемуто временами распознование всего текста было качественней чем побуквенно (это я о обычных буквенных языках), но если циклично проганять текст через построчную и побуквенное распознование, то качество улучшалось. А вот применение OpenCV для предподготовки изображения особой эффективности не давало, так как тессерак сам проводит подобную подготовку перед распознованием.
И вот насколько помню, тессерак предоставлял несколько опций распознования, построчно, побуквенно, всем текстом. И почемуто временами распознование всего текста было качественней чем побуквенно (это я о обычных буквенных языках), но если циклично проганять текст через построчную и побуквенное распознование, то качество улучшалось. А вот применение OpenCV для предподготовки изображения особой эффективности не давало, так как тессерак сам проводит подобную подготовку перед распознованием.
0
А пробовали OCR от Azure ? Azure Invoice Recognizer
0
Sign up to leave a comment.
Распознавание текста с помощью OCR