acheremuhin12 мая 2021 в 07:50

Кластеризация смешанных (числовых и категориальных) данных в R

4 мин

5.2K

Комментарии 2

omxela 12 мая 2021 в 20:07

С одной стороны, я понимаю — в том смысле, что ставится такая задача и ее хорошо бы решить. Прочитал. С другой стороны, я не совсем понял пример. Почему там есть не числовые параметры? Они с таким же успехом числовые — ноль и единица при бинарном выборе. Но это даже не интересно. Ведь каждый из этих параметров можно расширить и сделать из них такой же числовой, как общий балл по тесту успеваемости, скажем. Например. Папа-мама закончили колледж. А что, все равно какой? Есть рейтинг этих заведений — вот и числовой ряд. О доходах молчу, это очевидно. Равно как и то, находится ли школа в городе. Это грубо. Можно ввести пояса, разложить по числам. И так далее. Если по какой-то из этих переменных люди будут «размазаны» равномерно — она просто не будет участвовать в кластеризации автоматом. На мой взгляд, это еще нужно ухитриться придумать не числовой параметр.

acheremuhin 13 мая 2021 в 04:35

С одной стороны, вы правы. Есть возможность перекодировать любую порядковую переменную в числовую и применять обычный метод k-средних, например. С другой стороны, всегда возникают вопросы к схеме перекодировки. То есть, почему именно 0 и 1? А не 0 и 100? Потому что так принято? Такое себе объяснение. К тому же, при перекодировке в 0 и 1 у вас может получиться одно разбиение, а при перекодировке в 0 и 100 — другая. А что делать с переменными, у которых больше чем одно значение? Как тогда им сопоставлять числовые значения и на каком основании?
Кроме того, авторы этого подхода утверждают, что их алгоритм более эффективен (и в вычислительном смысле, и в плане решения задачи), чем метод k-средних в случае перекодировки категориальных переменных в числовые.
Можем посмотреть, кстати — сгенерировать искусственный датасет с уже известными метками классов и попробовать сравнить эффективность подходов

Зарегистрируйтесь на Хабре, чтобы оставить комментарий