andreycha Aug 11 2010 at 06:52

Обзор алгоритмов кластеризации данных

10 min

455K

Data Mining*

+73

Comments 41

digreen Aug 11 2010 at 06:58

Молодец, и тут тебе тоже «отл.» в зачетку

hellbee Aug 11 2010 at 07:12

Хоть кто-то в наше время пишет дипломы сам

great_boba Aug 11 2010 at 07:14

Вы еще пропустили популярную меру оценки расстояния как корреляцию между координатами (векторами значений)

andreycha Aug 11 2010 at 16:25

Уверен, я много что еще пропустил :). Можете рассказать поподробнее про эту меру?

eox425 Aug 11 2010 at 07:32

Спасибо большое, отличный обзор для «непосвящённого»

KiriKiri Aug 11 2010 at 07:44

Спасибо, очень интересно, а главное я наконец смог понять, для чего используется функциональный анализ.

XenJ Aug 11 2010 at 08:37

Все-таки функциональный анализ это немного другая тема.

KiriKiri Aug 11 2010 at 09:54

Теорию меры и метрические пространства мы изучали пока что только в курсе функционального анализа.

jerrydevice Aug 11 2010 at 07:46

Вы большая умничка! У меня как раз был диплом связанный с кластеризацией. Ностальгия охватила.
Вам не приходилось сталкиваться с задачей автоматического определения числа кластеров?

sashaeve Aug 11 2010 at 10:33

Мне приходилось. Что конкретно интересует?

jerrydevice Aug 11 2010 at 11:03

Интересует, какие подходы и алгоритмы применяются для решения этой задачи на ОЧЕНЬ больших объемах данных?

sashaeve Aug 11 2010 at 11:37

Алгоритмы и подходы те же, что и на небольших объемах данных. Разница заключается в том, что а) данные могут обрабатываться параллельно (или могут использоваться кластеры) б) данные могут анализироваться локально (т.е. данные разбиваются на меньшие группы), а потом сравниваться между собой (пост-процессинг) в) если есть какие-то экспертные данные, то делаются допущения на ранних этапах (пре-процессинг), но это может влиять на корректность результата. Где-то так.

andreycha Aug 11 2010 at 17:17

А мне кажется, что любой алгоритм, явно не задающий количество кластеров, так или иначе требует задание каких-то косвенных параметров, которые влияют на итоговое количество кластеров? Или я не так понимаю смысл задачи автоматическое определение числа кластеров?

UFO landed and left these words here

jerrydevice Aug 11 2010 at 15:22

О, это интересно. Спасибо.

zaartix Aug 11 2010 at 07:47

давайте вашу зачетку…

mjutu Aug 11 2010 at 08:05

у меня тоже похожий диплом… эххх

Shens Aug 11 2010 at 08:21

Не встретил в тексте ни слова о самоорганизующейся карте Кохонена. Ну или просто о нейросетевой кластеризации(в том числе и нейронный газ). Вы можете пояснить почему? Просто сам в своих задачах отдавал предпочтение этим алгоритмам.

Pilot34 Aug 11 2010 at 08:30

А как тестировали и результаты напишете? У меня курсач был на эту тему. На новостях самые простые алгоритмы дали лучшие результаты.

andreycha Aug 11 2010 at 16:12

С результатами, если честно, туго :). Дальше экспериментов дело не пошло, настало время защиты, и нормальных результатов нет.

Использовал квадрат эвклидова расстояния (чтоб «увеличить» расстояния), а также параметр для «разваливания» дерева (все величины предварительно нормализовывал), соответственно результаты на глаз оценивал.

XenJ Aug 11 2010 at 08:49

Советую обратить внимание на такие алгоритмы как LSH и RBVs которые позволяют быстро определять принадлежность произвольного вектора кластеру.

shogunkub Aug 11 2010 at 09:28

>а объекты разных группы должны быть как можно отличны.
как можно более отличны, вероятно.
Из текста непонятно, а темой я, как самоучка, не владею — что понимается под размером кластера? Число элементов в нём, или «протяженность»(расстояние между самыми удаленными элементами). Интуитивно вроде первое, но вдруг…

andreycha Aug 11 2010 at 09:51

Да, под размером кластера понимается число объектов в нем.

UFO landed and left these words here

sashaeve Aug 11 2010 at 11:33

Для текстовой информации используются другие методы и подходы. Хотя, в самом простом случае, тексты разбиваются на векторы объектов (слова, фразы и т.д.) и считается расстояние между двумя векторами (меры расстояния специфичны для конкретной задачи).

andreycha Aug 11 2010 at 17:30

С Text Mining/IR я не работал, к сожалению. Знаю только, что для качественных характеристик существуют меры Чекановского-Соренсена и Жаккара.

erley Aug 11 2010 at 12:14

Нужно ещё упомянуть про SVM — Support Vector Machine от профессора Вапника.
Те кто плотно работают с задачами кластеризации на практике пользуются этим подходом довольно часто. Есть и коммерческие пакеты, такие как например KXEN.

Melkor Aug 11 2010 at 14:03

Здесь есть слайды к лекции по кластерному анализу. Общий обзор для непрофильной специальности. И пошаговый пример вычисления для иерархического алгоритма.

Melkor Aug 11 2010 at 14:07

На Slideboom получше выглядит

andreycha Aug 11 2010 at 17:19

Спасибо. Звук на слайдбуме выносит мозг :)).

Melkor Aug 12 2010 at 07:20

:) по-моему это стандартные звуки для PP 2010.

Ambrose Aug 11 2010 at 14:26

А можно чуть подробнее про сам диплом? В какой области поставленную задачу решали и какими средствами? Как анализируемые данные были представлены?

Сам в этом году по Data Mining дипломировался, только задачи другие были, ассоциации искал :)

andreycha Aug 11 2010 at 16:09

В моем случае кластеризация была не в контексте data mining'а. В рамках разработки системы хранилища данных нужно было большие файлы иерархических структур (XML, JSON) разделять на более мелкие, основываясь на статистике обращения к элементам.

webrover Aug 11 2010 at 14:45

писал для диплома алгоритм кластеризации через генетические алгоритмы — модная кстати тема. у меня в городе один профессор этим занимается

serf Aug 11 2010 at 18:26

В свое время использовал (только по учебе) простой алгоритм k-средних (евклидово расстояние) для кластеризации цветовых пятен по сходству.
Запомнился вот этот cgm.computergraphics.ru/ неплохой ресурс, только по графике правда
Вот еще вспомни общее logic.pdmi.ras.ru/~yura/internet/02ia-seminar-note.pdf «Кластеризация данных» (Александр Котов)

hohlandrik Aug 11 2010 at 21:31

Высшая Школа Экономики, факультет Социологии?

andreycha Aug 11 2010 at 21:37

Политех, факультет технической кибернетики.

gaki Aug 12 2010 at 08:09

Почему вы примеры не приводите? Очень трудно читать. Про «объяснение нормальным человеческим языком» я, уж ладно, промолчу, ибо понимаю, что в научной среде это нонсенс. Но хоть бы пару примеров типа «вот у нас есть набор из стапицот вислоухих кроликов, и под кластеризацией по критерию вислости ушей мы понимаем то-то, таким-то алгоритмом делаем так-то и получаем бла-бла-бла...»

juneuniversum Jan 10 2013 at 18:58

Ученые объяснения большей частью производят то впечатление, что бывшее ясно и понятно становится темно и запутанно.
Л.Н. Толстой. «Дневники, 1900, сентябрь.»

SmartFrog Dec 26 2013 at 06:19

В алгоритме выделения связных компонент задается входной параметр R и в графе удаляются все ребра, для которых «расстояния» меньше R. Соединенными остаются только наиболее близкие пары объектов.

Ммм… Я туплю, или правильно будет «в графе удаляются все ребра, для которых «расстояния» больше R.»?

andreycha Dec 26 2013 at 14:08

Да, вы правы. Исправил. Спасибо!