Как стать автором
Обновить

Комментарии 27

А методы кластеризации не используются?
Уточните, пожалуйста, вопрос — вы про какие объекты и в каких координатах?
Например K-means и т.д.
Что брать в качестве объектов и что — в качестве признаков? И что хотим получить в результате?
Ну, скажем, если мы возьмём связные области, посчитаем на них какие-то признаки (скажем, связанные со статистикой RLE-штрихов) потом с помощью алгоритма кластеризации в пространстве этих признаков посчитаем вероятность того, что данная связная область — часть текста, то ответ будет «да».
Но скорее всего спрашивающий имел в виду построение кластеров в координатах исходного изображения, где вместо признаков берутся координаты центра связной области. Здесь таки Вы правы, ответ «нет».

Но я честно не хочу за спрашивающего придумывать его вопрос… ;)
При множестве существующих подходов напрашивается идея генератора и оценщика гипотез сегментации. В качестве генератора гипотез может использоваться один алгоритм, а для оценки гипотез — другой. С помощью такой связки можно попробовать подбирать параметры «на лету», если, конечно, такое выражение применимо. Сколько времени в среднем строится диаграмма Вороного для газетного листа?
Построение диаграммы Вороного зависит от количества опорных точек. Строится она в один проход и довольно быстро. Не думаю, что построение диаграммы Вороного может быть «узким местом» при какой-нибудь реализации алгоритма сегментации.
А зачем все это? Почему бы не находить объекты по их контурам, а потом складывать их в слова и предложения. Ведь по условии задачи проблем с бинаризацией нет.
Если немного более детально продумать, что такое «складывать их в слова и строки» (предложения нам вот тут совсем не нужны), и как именно это можно делать, то вы и изобретёте Smearing скорее всего.
Конечно же я имел ввиду строки.
Не смог найти, что такое Смиринг в OCR.
Сам занимаюсь OCR и не вижу никакого смысла в сегментации. Она сама собой получается после собирания строк, а вот выигрыш по скорости громаден.
Поищите здесь.
Спасибо, тупанул.
Смиринг — нахождение областей с помощью размазывания.
Зачем области эти искать, когда можно сразу находить глифы.
Сегментация делается до распознавания.
Если глифы откуда-то уже известны, то всё равно надо это облако глифов превратить в тексты, для чего правильно слепить строки, чтобы потом из них выделить колонки, коорые уже собрать в потоки.
Почему OCR SDK не отдают гипотезы сегментации (FineReader Engine в частности)?
Если вопрос по ABBYY OCR SDK, то лучше его задать здесь. Но вообще-то результат сегментации через API доступен.
А если в докструме, на первом шаге обнаружив все претенденты в буковки, перед вторым шагом их пораспознавать каждую по отдельности, получив про них по комплекту гипотез о виде буквы, языке, размеру, про углол поворота на странице и даже может быть про вид геометрического искажения. Кажется, это решённая задача.

Думается, эта информация может быть очень полезна при кластеризации в слова и строки. Как думаете?
Это ведь не помогает сегментации. Вначале нужно сегментировать, а уж потом все остальное, так еще в 1982 делали.
С чего вдруг, не помогает?

И вообще, аргумент «так всегда делали» в приличных обществах считается неприличным.
Геометрическое искажение действительно гораздо лучше (и дешевле) ловится по статистике взаимных расположений связных областей, чем по одной букве.
А та информация, о которой Вы пишете, скорее всего распознается очень ненадёжно.
Угол поворота по статистике вроде той, что в Docstrum считается надёжнее, чем по отдельным буквам. Даже на визитках, не говоря уж о документах, где текста больше
А текст вдоль кривых оно разве понимает?
Ответ зависит от того, что обозначается словом «оно» :)
Но текстом вдоль кривых обычно заморачиваются только молодые учёные и студенты с целью написать обязательную научную работу; никакого практического интереса такой текст не представляет. Т.е. я верю, что если учёный постарается, то его прототип будет показывать хорошие результаты на его выборке…
Оно — превозносимый Вами же Docstrum конечно. Другого претендента на раскрытие этой анафоры в данном контексте нет.

А текст вдоль кривых — это не только «никому не нужные» выпендрёжные подписи, но и сфотканный мобилкой разворот не выпрямленного листа книги. Хотя там, конечно, тоже можно другим способом лист выпрямлять, придумав дополнительный, обязательно отдельный, шаг обработки изображения.
Текст вдоль кривых не сложно найти особенно для латиницы. В моем проекте ReadThaiApp мне пришлось отказаться от кривых из-за сложности опознавания вертикальных лигатур(в тайском).
Распознавать тайский без хорошего строчного контекста? Да вы — монстр :)
Спасибо
Зарегистрируйтесь на Хабре, чтобы оставить комментарий