elDraco Aug 22 2011 at 13:55

Создаём приложение на С++ с использованием Tesseract-ocr, MinGW и напильника

6 min

31K

C++*

From sandbox

+22

Comments 13

northicewind Aug 23 2011 at 07:40

Спасибо за статью. Хотелось бы в дополнение узнать ответы на пару вопросов.
1) Насколько данная библиотека удовлетворила ваши требования и как бы вы оценили качество распознавания?
2) На странице Readme в разделе установка в Windows для версии 3.0 есть ссылка на инсталлятор, а так же рекомендации собрать библиотеку из солюшена в самой vs2008. По какой причине вы выбрали сборку при помощи MinGW?

elDraco Aug 23 2011 at 09:54

1) Распознавать пока пробовал только с дефолтными данными (rus.traineddata), при относительно чистом скане печатного текста распознавание почти 100%, сейчас как раз экспериментирую с методами очистки картинок. С использованием словаря и whitelist'а думаю точность распознавания будет ещё выше.
2) Инсталлятор ставится без проблем, но библиотек в комплекте нет как и заголовочных файлов (ну или я не нашёл, тогда придётся посыпать голову пеплом). Со сборкой студией у меня возникли примерно аналогичные проблемы и решения там думаю должны быть примерно аналогичные. MinGW был выбран для единообразия с остальными библиотеками и просто из-за того, что обычно я использую NetBeans.

Sveolon Aug 23 2011 at 07:45

И ещё вопрос — насколько я помню, у Tesseract были проблемы с распознаванием русского. Они в прошлом или с русским всё так же печально?

elDraco Aug 23 2011 at 09:58

Не заметил особых проблем с распознаванием, он даже мой рукопечатный «привет» понял, единственно что букву 'в' пришлось с примерно равными ушками написать.
Если речь о специфических шрифтах, то обучение может стать решением.

Damaskus Aug 23 2011 at 09:59

Проблем нет.
Можете обучить его даже мандаринскому, если у вас будет изображение символов алфавита. А коды запишете сами какие надо.

Sveolon Aug 23 2011 at 11:57

Насколько я помню, проблемы были с тем, что там были захардкожены символы латиницы, так что даже в русских словах буквы схожего написания (такие, как 'о', 'А') он распознавал как латинские. Что же, если проблемы больше нет — это здорово.

Damaskus Aug 23 2011 at 18:33

Лично я использовал tesseract с целью распознавания специфичных символов, и у меня был свой алфавит и свои коды.
Я бы в этом случае решил вопрос также — составил словарь для обучения утилиты состоящий из символов русского алфавита и записал туда нужные коды win-1251 или любой другой кодовой страницы. Это, кстати, уменьшит вероятность ошибки распознавания.
Если же натаскивать утилитку лень, то str_replace вам в помощь.

afiskon Aug 23 2011 at 11:57

Скажите, а умеет ли библиотека распознавать заголовки или таблицы?

elDraco Aug 23 2011 at 16:19

Насколько помню он умеет распознавать многоколоночный текст, насчёт форматирования вывода именно таблицей не уверен, у меня пока не было необходимости в таком функционале.
Насчёт заголовков не очень понял если честно что подразумевается.

Delphist2008 Aug 24 2011 at 15:24

Этот «напильник» напоминает страшный сон любого юниксоида — C:/etc/X11.

dslf Aug 25 2011 at 12:13

Какая дикая смесь СИ и С++. И когда уже люди отучаться ТАК писать на С++?..

elDraco Aug 27 2011 at 17:45

Если критика в адрес моего тестового приложения, то всегда рад если меня поправят увы не являюсь гуру в С/С++, пишу так как удобней
Если это в адрес самого tesseract, то это наследие HP, разработка была начата если не ошибаюсь в 1985 (по сути страшно сказать он мой ровесник) и именно на С, а полное портирование на С++ не такое уж простое дело

dslf Aug 27 2011 at 21:59

Я имел в виду код, который написан Вами. А суть проста: если Вы пишете на С++ — то и используйте инструментарий С++, а не СИ. Например, используйте строковые контейнеры (std::basic_string) для работы со строками, и std::basic_stream для работы с файлами. А если Вы пишите на СИ — то в приведенном выше коде замените вызовы операторов new [] и delete [] на calloc/malloc и free соответсвенно.