nenuacho Oct 9 2014 at 08:18

Optical Character Recognition силами .NET

4 min

9.5K

.NET * C# * Image processing *

From sandbox

Comments 10

Error_403_Forbidden Oct 9 2014 at 09:36

Мдаа… Выбрал самый лёгкий вид распознавания.
Без шума, искажений, сдвигов, вращения, без изменения размеров, шрифта, всё одним цветом…
Неинтересно

nenuacho Oct 9 2014 at 11:05

Спасибо, о том и речь: самый легкий OCR, который работает. Все цифры на картинках одного размера шрифта и цвета.

KvanTTT Oct 9 2014 at 09:48

Кроме того, использование GetPixel и SetPixel — это очень плохо для производельности.

nenuacho Oct 9 2014 at 11:07

Согласен, зато очень хорошо для простоты. В данном контексте повышать производительность не вижу смысла.

DreamWalker Oct 9 2014 at 11:23

Код воспринимался бы проще, если бы форматирование не прыгало, а показывать примеры с GetPixel и SetPixel можно только с жирной припиской типа «Никогда не делайте так в реальных проектах!». Для продакшена этот метод ну совсем не подходит, а молодёжь может научиться плохому. А показать быстрый способ работы с пикселами изображения в контексте OCR и тематики данной статьи совсем не помешало бы. Например, можно использовать вот эти советы: Fast work with Bitmaps in C#.

nenuacho Oct 9 2014 at 11:46

Спасибо за замечание. В качестве класса для работы с картинками так же рассматривал WritebleBitmap, но в пользу простоты остановился на Bitmap.
На счет продакшена, если метод работает надёжно, а производительность не важна, почему же он не подходит? Если без фанатизма.

DreamWalker Oct 9 2014 at 11:54

Ну, тут всё зависит, конечно, от того, какой именно продакшн. Я не говорю, что нет проектов, в которых ваш способ не подойдёт. Но настоящее проекты, как правило, постоянно развиваются. В какой-то момент захочется распознавать за раз не одну картинку, а 1000. Или засовывать в программу очень большие картинки с высоким DPI. А потом люди хватаются за голову, бегают и кричат: «А что же у нас такие простые вещи полчаса делаются?» На мой взгляд, подобные штуки лучше сразу написать нормально, чем потом искать проблемы через профайлер. А OCR — это та область, в которой производительность крайне редко бывает не важна.

DreamWalker Oct 9 2014 at 11:15

Есть хорошая .NET-обёртка библиотеки Tesseract. Качество неплохое, работает быстро и стабильно.

nenuacho Oct 9 2014 at 11:48

Да, пробовал её, но были с ней проблемы, кажется, с русским языком.

DreamWalker Oct 9 2014 at 11:54

Где-то два года уже пользуюсь — полёт нормальный, никаких проблем нету.