Как стать автором
Обновить

Комментарии 9

НЛО прилетело и опубликовало эту надпись здесь
Хорошо, сейчас же исправлю =)… исправил. Что-то не подумал, что картинка будет на пол экрана )
Не знал, что с 2010 года используем алгоритм «изобретенный» в конце 2013…
На самом деле все, что можно придумали еще раньше. А если кто-то что-то открывает — все стараются держать в узком кругу. Сейчас все алгоритмы такого плана имеют больше теоретическую важность, чем практическую. Хорошие или понятные алгоритмы редко выдерживают большие объемы данных, а если существуют, то скорее всего там целая куча ускоряющих модулей по навешано, предобработок, проверок и тому подобного.
Это была шутка про то, что данный алгоритм является тривиальным. По крайней мере, описанный в этой статье (оригинал просмотрел только бегло).

Вечная проблема всех алгоритмов кластеризации — выбор метрики, по которой считается расстояние между величинами. Особенно весело — для алгоритмов, работающих на текстах на естественных языках.
Да, тексты на естественных языках действительно очень плохо поддаются сравнению. Это целые категории разнообразнейших анализов смысла этого текста и отдельных слов, групп слов. В итоге можно получать очень забавные результаты на уровне детской логики, а если сохраняется в статистику — не очень хорошо =) В Яндексе и Гуглах до сих пор в запросах можно ересь найти типа «как заточить карандаш салом».
В свое время, когда стояла задача разделения данных, писал реализацию алгоритма кластеризации семейства FOREL Алгоритм тоже не сложный и дает хорошие результаты
Да, эти результаты будут хорошими если данные кучкуются. Но когда появляется шум (ни то ни се, в текстах это вообще постоянно), то центры выбираются ну совсем плохо… и шум попадает в кластера в больших количествах.
да, я кластеризовал людей в группе, там было все более менее однозначно
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.