Siarshai 6 фев 2017 в 08:38

Интересные алгоритмы кластеризации, часть первая: Affinity propagation

11 мин

50K

Data Mining*Алгоритмы*Математика*Машинное обучение*

+23

Комментарии 11

MikeLP 6 фев 2017 в 09:57

Было бы неплохо увидить реальный пример функции на С или Python. Или если есть ссылка на какой нибудь репозиторий с рабочими примерами, тоже было бы хорошо. Спасибо за статью.

Siarshai 6 фев 2017 в 10:20

Вот, например, питонья sklearn-имплементация с примером использования, которую я препарировал. Здесь можно найти matlab версию, а здесь — Java (распараллеленная, кстати!), но я их не смотрел.

atikhonov 6 фев 2017 в 11:12

а здесь R реализация: https://cran.r-project.org/web/packages/apcluster/vignettes/apcluster.pdf

namwen 6 фев 2017 в 12:40

КДПВ шикарна вдвойне за счет, пожалуй, самого популярного в мире дивана, браво!

noonv 6 фев 2017 в 12:44

Отличная статья! Спасибо!

pro100olga 7 фев 2017 в 11:37

Спасибо за статью, надеюсь на продолжение!

По поводу первой картинки из «стены картинок» (там где четыре полоски) вопрос: изначальная точка в к-средних выбиралась случайным образом или это одна из точек данных? По результату видно, что центроиды расположены между полосками, возможно, результат улучшится, если инициализировать в одной из точек данных. Кстати, интересно, есть ли модификация к-средних, где центроид на каждой итерации не просто считается как среднее точек кластера, а сначала считается среднее, а потом выбирается реальная точка, ближайшая к этой расчетной. Кажется логичным такой подход, чтобы избежать ситуации, изображенной на картинке.

И по поводу третьей картинки, там где две полоски перпендикулярны и накладываются. Мне кажется, не совсем честно сравнивать кластеризацию на 2 класса с помощью к-средних с разбиением на кучу кластеров. Возможно, если задать для к-средних, скажем, 5 кластеров, мы получим другой результат (условно «серединка» и четыре «лопасти»).

Siarshai 9 фев 2017 в 21:26

вопрос: изначальная точка в к-средних выбиралась случайным образом или это одна из точек данных?

Для инициализации использовался алгоритм k-means++. Т.е. даже лучше, чем просто случайный выбор точки.

Кстати, интересно, есть ли модификация к-средних, где центроид на каждой итерации не просто считается как среднее точек кластера, а сначала считается среднее, а потом выбирается реальная точка, ближайшая к этой расчетной. Кажется логичным такой подход, чтобы избежать ситуации, изображенной на картинке.

Интересная идея, но тут есть несколько недостатков. Что если примерное направление не совпадает ни с одной точкой? Как быть с кластерами с дырками посередине? Совсем не уверен, что это бы решило проблему с вот такими «колбасками».

Вот же как выступает kmeans с большим количеством кластеров на картинке с узким кластером, пересекающим круглый:

Лучше, чем было, но всё равно так себе: кластеры вытягиваются в направлении, перпендикулярном, направлению меньшего кластера.

Gryphon88 8 фев 2017 в 21:33

Я слышал мнение, что кластеризация скорее метод визуализации, поскольку надо наперед задать или количество групп, или степень сходства. Не холивара для, а истины ради: насколько правильным Вы считаете такое мнение?

Siarshai 9 фев 2017 в 21:30

Разве что «метод визуализации» в очень-очень широком смысле — не просто красивое представление, а способ разбить данные на несколько групп, и потом работать с каждой группой по-разному. Я лично не сталкивался с реальными сложными задачами кластеризации, так что моё мнение имеет здесь малый вес.