Комментарии 10
Покупаю семечки.
Кто я? :)
Кто я? :)
0
По моему опыту, на данный момент компании ни черта не знают о своих клиентах. Не припомню чтобы мне предложили то что бы я с удовольствием купил бы в дополнение к основной покупке.
+1
Ритейл становится умнее) Молодцы. Нужно нашу ХоРеКу еще с вами подружить.
0
Я думаю, что количество кластеров (n=75) слишком велико для практического анализа. Большинство из них в результате содержат только 1-2 значения, практически это шум. Опасность в том, что избыточное количество кластеров может негативно повлиять на точность кластеризации. Может не в вашем случае, но такое бывает.
Если для анализа выбран метод K-means, можно поступить следующим образом. Определить целевую функцию погрешности классификации и ее порог, потом перебирать значение числа кластеров до тех пор, пока условие погрешности не станет выполняться. Тем самым можно избежать ручного выбора параметра n и получить устойчивую конфигурацию кластеров, которая хорошо описывает выборку.
Что касается случая, связанного с карточками работников, его легко обнаружить и без привлечения метода кластерного анализа. Хотя сам факт любопытный, и он говорит о том, что экстремальные значения нужно не просто отбрасывать, а внимательно анализировать.
Спасибо за интересный пример использования метода кластеризации.
Если для анализа выбран метод K-means, можно поступить следующим образом. Определить целевую функцию погрешности классификации и ее порог, потом перебирать значение числа кластеров до тех пор, пока условие погрешности не станет выполняться. Тем самым можно избежать ручного выбора параметра n и получить устойчивую конфигурацию кластеров, которая хорошо описывает выборку.
Что касается случая, связанного с карточками работников, его легко обнаружить и без привлечения метода кластерного анализа. Хотя сам факт любопытный, и он говорит о том, что экстремальные значения нужно не просто отбрасывать, а внимательно анализировать.
Спасибо за интересный пример использования метода кластеризации.
0
На самом деле если ритейлер большой, с большим количеством SKU то мы делаем кластеризацию на 200-300 кластеров. Получаем примерно 60% кластеров с шумом по 1-2 клиентах, но остальные годятся для анализа. Это «collateral damage» ))
Если же делать кластеризацию на 10-20 кластеров (что удобно для анализа) то получаем один кластер на 80% клиентов, один на 10% и все остальное шум, ничего не видно.
Если же делать кластеризацию на 10-20 кластеров (что удобно для анализа) то получаем один кластер на 80% клиентов, один на 10% и все остальное шум, ничего не видно.
+1
Зарегистрируйтесь на Хабре , чтобы оставить комментарий
Кластеризация: расскажи мне, что ты покупаешь, и я скажу кто ты