NastyaL Sep 10 2015 at 11:48

Обзор алгоритмов сегментации

8 min

82K

Intel corporate blogAlgorithms*Image processing*Mathematics*

+27

Comments 15

Mrrl Sep 10 2015 at 13:23

Когда два региона начинают сливаться, строится перегородка, чтобы предотвратить объединение областей

[...]

Получается, чтобы найти к какому из центров сгущения относится пиксель, надо шагать по градиенту для нахождения ближайшего локального максимума.

Будут ли различаться результаты этих двух методов, если применить их к одной и той же функции (например, в первом методе не строить перегородки, а идти по градиентам в сторону минимума)?

NastyaL Sep 10 2015 at 15:00

Результат работы MeanShift будет зависеть от выбранного радиуса сферы в пространстве признаков, так как при вычислении вектора среднего сдвига будут учитываться только те пиксели, которые попали в эту сферу. И в зависимости от выбранного радиуса может получится разное количество максимумов, соответственно число сегментов тоже будет меняться. Думаю на простых картинках результат получится одинаковым

waterandice Sep 10 2015 at 13:58

Просто интересно, есть ли у вас алгоритмы которые смогут распознать одинаковые картинки (например контуры квадратов) разного размера как одно и тоже?

BelBES Sep 10 2015 at 14:25

Хм, а разве для простых образов не отработает матчинг на основе Хью моментов?

waterandice Sep 10 2015 at 14:38

первый раз слышу про такой метод, погуглил по запросу «Хью моменты computer vision», «hew moments computer vision», но описания контретного метода не встретил, не могли бы вы дать ссылку на статью про этот метод?

BelBES Sep 10 2015 at 14:47

В документации к opencv есть описание того, как вычисляются такие моменты. На robocraft'е даже какие-то сэмплы есть.

waterandice Sep 10 2015 at 17:11

по идее такой метод должен неплохо распознавать текст в реальном времени, или для openCV это давно не проблема?

BelBES Sep 10 2015 at 17:15

В contrib-расширениях к opencv есть модуль для работы с текстом, сам я его не пробовал, но вроде бы работает. Вот документация по нему.

ZlodeiBaal Sep 11 2015 at 00:52

Были на Хабре хорошие статьи от BigObfuscatorна эту тему, только, по-моему, он их поудалял зачем-то.
Оно работает, если у вас хорошая сегментация. Если нельзя грамотно сегментировать чистую фигуру символа, то нужно обучать ML алгоритмы. Собственно так гугл номера домов и ищет — habrahabr.ru/post/208330
А сожалению, в большинстве реальных применений (распознавание номеров, надписей) нереально корректно сегментировать буквы. Даже используя такие хитрые и сложные алгоритмы как описаны выше.
Чуть ниже приведён пример распознавания на базе Tesseract. Но там та же проблема. Если вы сегментировали — всё хорошо. Если нет, то тессеракт чушь выдаёт. К тому же, на мой вкус, куда проще нейронную сетку настроить, чем грамотно тессеракт сконфигурировать (у него в файле конфигурации где-то 400 малодокументированных параметров, не считая того, что под каждый шрифт обучать нужно).

neolink Sep 10 2015 at 16:07

а в с помощью чего построено это изображение: https://habrastorage.org/files/215/c91/1a0/215c911a0f5149aa801ff6c277b68d41.jpg?

NastyaL Sep 10 2015 at 16:32

с помощью Mathematica

Rondo Sep 10 2015 at 16:12

Спасибо за статью, могу еще подкинуть на эту тему статьи:
Region Adjacency Graphs Introduction RAG
Normalized Cuts on Region Adjacency Graphs NCUT
Насколько я понял, автор взял SLIC (Simple Linear Iterative Clustering) и улучшил его, избавив от пересегментации:

картинки

Original