a1ndrey23 мая 2013 в 06:49

Детектирование и локализация произвольного текста на изображениях, полученных с помощью фотокамер мобильных телефонов

3 мин

25K

Алгоритмы * Обработка изображений * iOS *

+34

Комментарии 41

HoochieMen 23 мая 2013 в 07:39

Думал в конце будет линк :)) идея классная, ничего не скажешь. Еще бы фотка не сохранялась а вместо этого в заметках появлялся текст например (можно в заметках софтинки самой)

a1ndrey 23 мая 2013 в 07:41

Само приложение еще не готово, в разработке.

HoochieMen 23 мая 2013 в 07:45

Да, я понимаю) молодец вы, думаю будет востребованным приложением, причем учитывая полезность, думаю и платность не помешает :) я бы взял

Pastafarianist 23 мая 2013 в 16:25

Если не преследуете коммерческие интересы, можете выложить то, что уже есть, на GitHub. Будет интересно почитать.

bolk 23 мая 2013 в 07:46

Хотелось бы больше подробностей, описаний алгоритмов на псевдоязыке и так далее.

xaoc80 23 мая 2013 в 07:51

Распознавать планируете в tesseract?

a1ndrey 23 мая 2013 в 07:54

Да

MisterX 23 мая 2013 в 07:55

Был бы благодарен, в конце поста увидеть ссылки, откуда брали информацию для реализации (оператора Собеля, пирамиды Гаусса, адаптивной бинаризации). Или хотя бы описание алгоритмов

a1ndrey 23 мая 2013 в 08:00

Оператор Собеля:

Гауссова пирамида изображений: «Для получения слоя (i+1) в Гауссовской пирамиде из слоя i пирамиды, нам необходимо сначала свернуть этот слой с помощью Гауссовского ядра, а затем удалить все чётные строки и столбцы. Конечно из этого следует что каждое последующее изображение будет занимать четверть площади его предшественника.»

MisterX 23 мая 2013 в 08:03

С оператором, ясно, спасибо (я в вики уже нашел). А вот с пирамидой, можно более конкретно?

Ramires 23 мая 2013 в 07:58

Тестировали производительность с четырьмя изображениями в гауссовой пирамиде изображений?

a1ndrey 23 мая 2013 в 08:00

Нет с 3-мя

Ramires 23 мая 2013 в 10:01

Попробуйте протестировать. Может, не так уж и затратно будет.

darked 23 мая 2013 в 08:00

Можно предусмотреть ручного указания области фотографии для распознавания, задания прямоугольника, ведь часто нужна только конкретная область.

a1ndrey 23 мая 2013 в 08:02

Это конечно можно, но из моего опыта, пользователи айфонов, в большинстве своем, такие люди что им нужна одна кнопка «Сделать красиво». Так что в своем приложении я этого не планирую.

darked 23 мая 2013 в 08:04

Ну, при сильно зашумлённом изображении, если автомат не прошёл, можно, думаю, выводить диаложек — попробуйте указать интересующую область вручную… не?

a1ndrey 23 мая 2013 в 08:08

Может быть и так, но проще изменить ракурс и переснять.

xaoc80 23 мая 2013 в 08:14

Я делал подобную задачу под андроид, но там надо было распознавать автомобильные номера
Столкнулся с такими проблемами — очистка от шума, искажения и т.д.
Я, правда boofCV использовал, так как реализовывать все алгоритмы было довольно утомительно, например морфологические операции, кэнни
Да и как показывает практика — функции, реализованные в таких библиотеках хорошо оптимизированы по быстродействию и использованию памяти, что очень критично на мобильных девайсах
В итоге я использовал кэнни, затем фильтровал области по размеру и скармливал в OCR по одному символу — получилось довольно эффективно

Elsedar 23 мая 2013 в 08:23

Позвольте поинтересоваться. Вы реализовывали только распознавание или еще и поиск номера?
В данный момент, как раз работаю над такой задачей. И успешный поиск автомобильного номера происходит в ~80-85% случаев(что меня не очень устраивает).
Если вы работали над поиском, то было бы интересно узнать процент успешной локализации номера и, если не секрет, в общих чертах алгоритмы.

xaoc80 23 мая 2013 в 08:29

Конечно необходимо было номер найти и локализовать. Для этого я искал прямоугольники на изображении с определенным процентом заполнения черными пикселями. В версии для десктопа я использовал opencv и пример для поиска прямоугольников который идет в комплекте с этой библиотекой. Процент попаданий, к сожалению был не очень большой — процентов 60-80, так как картинки были в разных качествах, под разными углами, но я алгоритм потихоньку оптимизирую. Кроме этого возникнет проблема ложных срабатываний, понадобится дополнительный фильтр по ним

samodum 23 мая 2013 в 09:13

А как вы искали прямоугольник? С помощью Хафа?

xaoc80 23 мая 2013 в 10:33

Там функция есть библиотечная findContours, скорее всего работает на основе преобразования Хафа

Elsedar 23 мая 2013 в 10:50

Вообще-то, она просто составляет список непрерывных линий(контуров) по растровой бинарной картинке.

xaoc80 23 мая 2013 в 10:57

Да, но я почему-то думал, что ищутся именно линии при этом, принадлежащие одному контору. Интересно, тогда какой алгоритм там используется?

Elsedar 23 мая 2013 в 11:13

Линии принадлежащие одному контуру? Не совсем понимаю, как это.

Если не используются аппроксимации, то все же банально, например: проходим по картинке, нашли белый пиксель, создали контур, все соседние(и соседние соседних и т.д. рекурсивно) белые пиксели добавляем в этот контур, при этом помечая их как-нибудь.
Ну и еще иерархия контуров составляется.

Можно, конечно, глянуть исходники OpenCV, благо они под рукой, но слабонервным этого делать не стоит.

xaoc80 23 мая 2013 в 11:18

«Линии принадлежащие одному контуру? Не совсем понимаю, как это.»

Ну это я заблуждался просто — я вообще думал, что он Хафа для этого использует

«Можно, конечно, глянуть исходники OpenCV, благо они под рукой, но слабонервным этого делать не стоит. „

Кстати говоря исходники там вполне читаемые, хотя сталкивался с трешаком — но это понятно — там же много людей к либе приложили руку

Elsedar 23 мая 2013 в 11:37

Вот была у меня однажды необходимость посмотреть как что-то там реализовано в модуле calib3d.
И поругался и повеселился, но, так и не разобравшись, плюнул на это дело. Реализовал сам.

Сейчас вот глянул contours.cpp. Не знаю, сколько потребуется времени, чтобы загрузить в мозг эти алгоритмы по коду.
Форматирование кода нормальное. Но одно-двух-трех-буквенные названия переменных и дикое обилие magic numbers… нет, я это читать не могу.

a1ndrey 23 мая 2013 в 08:30

Когда пишешь сам, лучше понимаешь как это работает. Можешь изменить пару цифр в алгоритме и сразу видишь что изменилось на выходе. Не знаю как на андроиде, но в opencv под iOS мне кажется, размытие по гауссу делается только с ядром 5. Т.е. ты уже в определенных рамках, а если мне надо ядро 3 или 7. Начинаешь писать сам недостающие функции, так уж легче все с нуля самому написать.

xaoc80 23 мая 2013 в 08:33

Это да, поэтому, недавно реализовал размытие гаусса в общем виде (для retinex — там ядро большое нужно). Но опять таки моя реализация вышла чуть более требовательной по памяти.

Krovosos 23 мая 2013 в 08:20

Большой потенциал видит Йода в этом приложении. Помимо туризма можно и другие применения найти.

a1ndrey 23 мая 2013 в 08:34

Спасибо, а подскажите какие еще применения, а что то мне на ум больше ничего и не приходит.

xaoc80 23 мая 2013 в 08:37

Как вариант — детектирование торговых знаков/вывесок и поиск инфы в гугле по ним сразу на месте.

thunderspb 23 мая 2013 в 16:00

вы имеете ввиду Google Goggles?

хм, посмотрел описание, оно еще и тексты сканит и переводит :)

rafuck 23 мая 2013 в 10:52

У меня во дворе автолюбители часто «запирают» друг друга, оставляя телефонный номер под лобовым стеклом. Неоднократно приходила в голову мысль сделать распознавание телефонного номера по фотографии, чаще эта мысль посещает зимой и в темноте, ближе к лету функция частоты асимптотически стремится к нулю с редкими осцилляциями.

Krovosos 27 мая 2013 в 11:53

Ну эта штука, по идее, есть команда. То бишь фотографируя какую-то надпись и получая ее в виде текста, мы можем трактовать это как просьбу пользователя сделать что-то с этими данными. Трактовка зависит от вида данных.
Например, если сфотографирован номер авто, то получаем по нему какую-то информацию.
Или фотографируется какой-то продукт в магазине и по нему получается дополнительная информация.
Хочу сказать, что необязательно это в другой стране делать. Может примеры несколько надуманны, но смысл в том, что это как Siri. Только не говоришь в нее запрос, а фотографируешь.

pyatigil 23 мая 2013 в 09:20

Под андроид это умеет делать google translate, а под iOS похоже его не научили. Поэтому на айфоне можно воспользоваться google goggles: www.wikihow.com/Translate-With-Google-Goggles

Elsedar 23 мая 2013 в 09:35

Если бы он еще не требовал соединения с инетом для отсылки фотографий.

aryeh 23 мая 2013 в 10:10

подобная функциональность уже заявлена в последнем google translate.
пока работает плохо, но…

P.S. а что касается «ориентироваться в Израиле»… громко и внятно, на всю улицу, на любом доступном Вам языке кричите «И что за х… я тут написана??!» и вам немедленно отвечают.

VSukhomlinov 23 мая 2013 в 14:06

В свое время я делал штуку для выделения текста (номера автомобиля) и применил построчно для этого прямое и обратное БПФ — после прямого отбрасывал в результате те гармоники, которые относятся к очень низким и очень высоким частотам и делал обратное преобразование. после этого применял нечто, что называл «инерциальный» фильтр — по сути суммировал вдоль строки яркости бегущим окном и если значение было больше порога, то отмечал точку. В результате получал размеченные зоны, где был некоторый ритм, характерный для текста. Это еще в 97-98гг было, работало почти в реальном времени на i486, правда с камеры было невысокое разрешение. БПФ помню еще Watcom C компилировал, а потом руками дооптимизировал, sin & cos по таблице итп.

Quiensabe 23 мая 2013 в 22:53

Учитывая развитие google translate и похожих утилит, за то время пока будете дорабатывать продукт можно потерять ЦА.

ИМХО — как раз тут ключевым плюсом была бы дополненная реальность. Чтобы навести телефон на текст, а прога затирала его цветом фона и поверх выводила перевод в том же месте и с теми же искажениями… Если в реальном времени не получится — то хоть на готовой фотке.
Даже в тех макетах что у вас — google translate — просто выдал бы кучу неструктурированного текста, читать который крайне неудобно…

inatale 24 мая 2013 в 05:25

Спасибо за пост и подробное описание именно реализации. Единственное удивило, что не много программ с такой функциональностью (которые поддерживают русский), например, на Nokia Lumia своей пользуюсь Bing Translator (обычно как раз для не English текстов и надписей), который умеет в live-режиме с камеры переводить — вот ссылка на только что сделанный перевод.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий