eforce26 янв 2011 в 15:57

Знакомство с OCR библиотекой tessnet2 (язык C#)

5 мин

62K

Open source *

Из песочницы

+63

Комментарии 21

awolf 26 янв 2011 в 16:05

Простите, но первая картинка вырвиглазна.

eforce 26 янв 2011 в 16:14

Уменьшил её более чем на 20 процентов, теперь она не режет так глаза.

Xlab 26 янв 2011 в 17:33

Как ты умудряешься быть первым в который раз? O_o

ilya_compman 26 янв 2011 в 17:53

F5-Джедай

RIAMedia 26 янв 2011 в 16:24

Движок Tesseract OCR был одним из лучших 3 двигателей в 1995 году на UNLV Accuracy test. В период между 1995 и 2006 годах он был немного доработан, но это, вероятно, один из наиболее точных OCR движков доступный с открытым исходным. Исходный код будет читать бинарные, серые или цветное изображение и выводить текст.

Местами читать очень тяжело, например, как в приведенном примере.

eforce 26 янв 2011 в 17:15

Спасибо за критику, выделенный кусок текста — это описание, которое я взял с сайта и перевёл, поэтому получилось не очень красиво, теперь как мне кажется стало лучше.

drzerg 26 янв 2011 в 17:55

Статья в помощь спамерам.

drzerg 26 янв 2011 в 18:01

habrahabr.ru/blogs/spam/112576/

Ice_venom 26 янв 2011 в 18:53

Не поверите, но на днях игрался с этой библиотекой и тоже хотел написать статью:)
Мне удалось распознать капчи двух крупнейших сотовых операторов и суверенного лепрозория. Занимался этим для саморазвития, даже не знаю, что теперь с этими наработками делать… спамерам отдавать не хочу.

evil_random 26 янв 2011 в 21:06

Отдайте админам крупнейших сотовых операторов и суверенного лепрозория. Им пригодится.

razoroid 26 янв 2011 в 23:45

ога, и новую капчу, которую после этого поставят не разгадает даже человек)

VenomBlood 27 янв 2011 в 00:54

Меня убивают некоторые капчи из статьи. Такое ощущение что авторы специально старались усложнить жизнь не спамерам, а обычным пользователям. Ставить оранжевые чифры на красном фоне, учитывая то, что машине абсолютно пофиг как сильно в этом случае различаются цвета фона и шрифта — верх глупости.

odiszapc 27 янв 2011 в 02:28

Друзья, что насчет кириллицы?

Dimchansky 27 янв 2011 в 07:02

В списке он есть:
code.google.com/p/tesseract-ocr/downloads/list

Dimchansky 27 янв 2011 в 07:04

Но похоже, это для третьей версии :(
Для второй нет.

gmc 27 янв 2011 в 07:15

Как показал мой личный опыт, третий тессеракт работает с кириллицей довольно скверно. У меня результаты получились хуже, чем на cuneiform.

Dimchansky 27 янв 2011 в 07:09

Небольшая ложка дегтя:
«Tesseract C++ source code is full of memory leak. Using tessnet2 assembly several time will cause memory overflow. This is not tessnet2 leak, this is tesseract leak and I spent two days in tesseract source code trying to improve this with no success. See what I think about this.»

mxc 27 янв 2011 в 11:38

Шикарно, использовал tessnet2 для License plate recognition. Но были проблемы с нахождением номера на фото, а также если сфотографирован под углом…
Автор подобным не занимался?

eforce 27 янв 2011 в 13:02

Хороший пример реального приложения, но, к сожалению подобных задач я ещё не встречал в своей работе, думаю ещё все впереди.

genixg 17 сен 2014 в 11:55

А вы случайно не заморачивались подготовкой этой библиотеки для распознавания какого-нибудь особенного шрифта? Просто я столкнулся с пробемой, что абсолютно читаемые человеческому глазу черные цифры на белом фоне очень криво распознаются этой библиотекой. А так как распознавать надо только цифры, хочется прям чуть ли не задать ей все картинки цифр вручную. Как лучше это сделать?
Пробовал по инструкции code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3, но что-то очень тяжело все для меня…

genixg 5 дек 2014 в 12:30

Уже нашел и обучалку под .Net, и отличную программу VietOCR, которая позволяет проверить подготовленные по шрифту данные. Ну и чтобы их потом использовать, нужно было просто подобрать работающую библиотечку. Кстати, можно ее взять и из той же программы.
Но в конечном итоге я столкнулся с ситуацией, что несмотря на все обучение и качественную пред-обработку, программа иногда отказывалась распознавать число без указания рамки… В общем, вернулся на старую tesseract2, она работает с дефолтным языком даже стабильнее, чем новая почему-то.
А еще позже я выяснил (это есть в комментарии выше), что эти библиотеки страдают утечками памяти.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий