Ну, скажем, если мы возьмём связные области, посчитаем на них какие-то признаки (скажем, связанные со статистикой RLE-штрихов) потом с помощью алгоритма кластеризации в пространстве этих признаков посчитаем вероятность того, что данная связная область — часть текста, то ответ будет «да».
Но скорее всего спрашивающий имел в виду построение кластеров в координатах исходного изображения, где вместо признаков берутся координаты центра связной области. Здесь таки Вы правы, ответ «нет».

Но я честно не хочу за спрашивающего придумывать его вопрос… ;)

logicview 1 авг 2016 в 11:04

При множестве существующих подходов напрашивается идея генератора и оценщика гипотез сегментации. В качестве генератора гипотез может использоваться один алгоритм, а для оценки гипотез — другой. С помощью такой связки можно попробовать подбирать параметры «на лету», если, конечно, такое выражение применимо. Сколько времени в среднем строится диаграмма Вороного для газетного листа?

57DeD 1 авг 2016 в 12:59

Построение диаграммы Вороного зависит от количества опорных точек. Строится она в один проход и довольно быстро. Не думаю, что построение диаграммы Вороного может быть «узким местом» при какой-нибудь реализации алгоритма сегментации.

Agonee 2 авг 2016 в 04:41

А зачем все это? Почему бы не находить объекты по их контурам, а потом складывать их в слова и предложения. Ведь по условии задачи проблем с бинаризацией нет.

57DeD 2 авг 2016 в 04:43

Если немного более детально продумать, что такое «складывать их в слова и строки» (предложения нам вот тут совсем не нужны), и как именно это можно делать, то вы и изобретёте Smearing скорее всего.

Agonee 2 авг 2016 в 05:28

Конечно же я имел ввиду строки.
Не смог найти, что такое Смиринг в OCR.
Сам занимаюсь OCR и не вижу никакого смысла в сегментации. Она сама собой получается после собирания строк, а вот выигрыш по скорости громаден.

57DeD 2 авг 2016 в 05:32

Поищите здесь.

Agonee 2 авг 2016 в 05:42

Спасибо, тупанул.
Смиринг — нахождение областей с помощью размазывания.
Зачем области эти искать, когда можно сразу находить глифы.

57DeD 2 авг 2016 в 11:27

Сегментация делается до распознавания.
Если глифы откуда-то уже известны, то всё равно надо это облако глифов превратить в тексты, для чего правильно слепить строки, чтобы потом из них выделить колонки, коорые уже собрать в потоки.

rprokop 3 авг 2016 в 12:31

Почему OCR SDK не отдают гипотезы сегментации (FineReader Engine в частности)?

57DeD 3 авг 2016 в 12:54

Если вопрос по ABBYY OCR SDK, то лучше его задать здесь. Но вообще-то результат сегментации через API доступен.

Nashev 21 авг 2016 в 07:19

А если в докструме, на первом шаге обнаружив все претенденты в буковки, перед вторым шагом их пораспознавать каждую по отдельности, получив про них по комплекту гипотез о виде буквы, языке, размеру, про углол поворота на странице и даже может быть про вид геометрического искажения. Кажется, это решённая задача.

Думается, эта информация может быть очень полезна при кластеризации в слова и строки. Как думаете?

Agonee 21 авг 2016 в 07:55

Это ведь не помогает сегментации. Вначале нужно сегментировать, а уж потом все остальное, так еще в 1982 делали.

Nashev 21 авг 2016 в 13:56

С чего вдруг, не помогает?

И вообще, аргумент «так всегда делали» в приличных обществах считается неприличным.

57DeD 22 авг 2016 в 11:10

Геометрическое искажение действительно гораздо лучше (и дешевле) ловится по статистике взаимных расположений связных областей, чем по одной букве.
А та информация, о которой Вы пишете, скорее всего распознается очень ненадёжно.

57DeD 21 авг 2016 в 09:12

Угол поворота по статистике вроде той, что в Docstrum считается надёжнее, чем по отдельным буквам. Даже на визитках, не говоря уж о документах, где текста больше

Nashev 21 авг 2016 в 13:54

А текст вдоль кривых оно разве понимает?

57DeD 22 авг 2016 в 11:08

Ответ зависит от того, что обозначается словом «оно» :)
Но текстом вдоль кривых обычно заморачиваются только молодые учёные и студенты с целью написать обязательную научную работу; никакого практического интереса такой текст не представляет. Т.е. я верю, что если учёный постарается, то его прототип будет показывать хорошие результаты на его выборке…

Nashev 22 авг 2016 в 11:20

Оно — превозносимый Вами же Docstrum конечно. Другого претендента на раскрытие этой анафоры в данном контексте нет.

А текст вдоль кривых — это не только «никому не нужные» выпендрёжные подписи, но и сфотканный мобилкой разворот не выпрямленного листа книги. Хотя там, конечно, тоже можно другим способом лист выпрямлять, придумав дополнительный, обязательно отдельный, шаг обработки изображения.

Agonee 25 авг 2016 в 02:38

Текст вдоль кривых не сложно найти особенно для латиницы. В моем проекте ReadThaiApp мне пришлось отказаться от кривых из-за сложности опознавания вертикальных лигатур(в тайском).

57DeD 25 авг 2016 в 11:51

Распознавать тайский без хорошего строчного контекста? Да вы — монстр :)

Agonee 26 авг 2016 в 01:01

Спасибо

Зарегистрируйтесь на Хабре, чтобы оставить комментарий