Comments 41
Молодец, и тут тебе тоже «отл.» в зачетку
Хоть кто-то в наше время пишет дипломы сам
Вы еще пропустили популярную меру оценки расстояния как корреляцию между координатами (векторами значений)
Спасибо большое, отличный обзор для «непосвящённого»
Спасибо, очень интересно, а главное я наконец смог понять, для чего используется функциональный анализ.
Все-таки функциональный анализ это немного другая тема.
Вы большая умничка! У меня как раз был диплом связанный с кластеризацией. Ностальгия охватила.
Вам не приходилось сталкиваться с задачей автоматического определения числа кластеров?
Вам не приходилось сталкиваться с задачей автоматического определения числа кластеров?
Мне приходилось. Что конкретно интересует?
Интересует, какие подходы и алгоритмы применяются для решения этой задачи на ОЧЕНЬ больших объемах данных?
Алгоритмы и подходы те же, что и на небольших объемах данных. Разница заключается в том, что а) данные могут обрабатываться параллельно (или могут использоваться кластеры) б) данные могут анализироваться локально (т.е. данные разбиваются на меньшие группы), а потом сравниваться между собой (пост-процессинг) в) если есть какие-то экспертные данные, то делаются допущения на ранних этапах (пре-процессинг), но это может влиять на корректность результата. Где-то так.
UFO just landed and posted this here
давайте вашу зачетку…
у меня тоже похожий диплом… эххх
Не встретил в тексте ни слова о самоорганизующейся карте Кохонена. Ну или просто о нейросетевой кластеризации(в том числе и нейронный газ). Вы можете пояснить почему? Просто сам в своих задачах отдавал предпочтение этим алгоритмам.
А как тестировали и результаты напишете? У меня курсач был на эту тему. На новостях самые простые алгоритмы дали лучшие результаты.
С результатами, если честно, туго :). Дальше экспериментов дело не пошло, настало время защиты, и нормальных результатов нет.
Использовал квадрат эвклидова расстояния (чтоб «увеличить» расстояния), а также параметр для «разваливания» дерева (все величины предварительно нормализовывал), соответственно результаты на глаз оценивал.
Использовал квадрат эвклидова расстояния (чтоб «увеличить» расстояния), а также параметр для «разваливания» дерева (все величины предварительно нормализовывал), соответственно результаты на глаз оценивал.
>а объекты разных группы должны быть как можно отличны.
как можно более отличны, вероятно.
Из текста непонятно, а темой я, как самоучка, не владею — что понимается под размером кластера? Число элементов в нём, или «протяженность»(расстояние между самыми удаленными элементами). Интуитивно вроде первое, но вдруг…
как можно более отличны, вероятно.
Из текста непонятно, а темой я, как самоучка, не владею — что понимается под размером кластера? Число элементов в нём, или «протяженность»(расстояние между самыми удаленными элементами). Интуитивно вроде первое, но вдруг…
UFO just landed and posted this here
Для текстовой информации используются другие методы и подходы. Хотя, в самом простом случае, тексты разбиваются на векторы объектов (слова, фразы и т.д.) и считается расстояние между двумя векторами (меры расстояния специфичны для конкретной задачи).
С Text Mining/IR я не работал, к сожалению. Знаю только, что для качественных характеристик существуют меры Чекановского-Соренсена и Жаккара.
Нужно ещё упомянуть про SVM — Support Vector Machine от профессора Вапника.
Те кто плотно работают с задачами кластеризации на практике пользуются этим подходом довольно часто. Есть и коммерческие пакеты, такие как например KXEN.
Те кто плотно работают с задачами кластеризации на практике пользуются этим подходом довольно часто. Есть и коммерческие пакеты, такие как например KXEN.
А можно чуть подробнее про сам диплом? В какой области поставленную задачу решали и какими средствами? Как анализируемые данные были представлены?
Сам в этом году по Data Mining дипломировался, только задачи другие были, ассоциации искал :)
Сам в этом году по Data Mining дипломировался, только задачи другие были, ассоциации искал :)
писал для диплома алгоритм кластеризации через генетические алгоритмы — модная кстати тема. у меня в городе один профессор этим занимается
В свое время использовал (только по учебе) простой алгоритм k-средних (евклидово расстояние) для кластеризации цветовых пятен по сходству.
Запомнился вот этот cgm.computergraphics.ru/ неплохой ресурс, только по графике правда
Вот еще вспомни общее logic.pdmi.ras.ru/~yura/internet/02ia-seminar-note.pdf «Кластеризация данных» (Александр Котов)
Запомнился вот этот cgm.computergraphics.ru/ неплохой ресурс, только по графике правда
Вот еще вспомни общее logic.pdmi.ras.ru/~yura/internet/02ia-seminar-note.pdf «Кластеризация данных» (Александр Котов)
Высшая Школа Экономики, факультет Социологии?
Почему вы примеры не приводите? Очень трудно читать. Про «объяснение нормальным человеческим языком» я, уж ладно, промолчу, ибо понимаю, что в научной среде это нонсенс. Но хоть бы пару примеров типа «вот у нас есть набор из стапицот вислоухих кроликов, и под кластеризацией по критерию вислости ушей мы понимаем то-то, таким-то алгоритмом делаем так-то и получаем бла-бла-бла...»
В алгоритме выделения связных компонент задается входной параметр R и в графе удаляются все ребра, для которых «расстояния» меньше R. Соединенными остаются только наиболее близкие пары объектов.
Ммм… Я туплю, или правильно будет «в графе удаляются все ребра, для которых «расстояния» больше R.»?
Sign up to leave a comment.
Обзор алгоритмов кластеризации данных