Добрый день! Спасибо за интерес к статье, исследование на данный момент ведется внутри команды Vulners с целью разработки новой фичи.
Тем не менее, у нас были мысли сделать небольшой public датасет для аналитики по этой или сходной теме (в духе kaggle), возможно, что решимся в будущем :)
Да, тоже хороший вариант, спасибо! Похожую тему делали по обращением от клиентов, группировки получались очень юзабельные.
И пожалуй, было бы интересно сравнить два результата — в чем будет разница в смысловом плане и в плане простоты реализации.
Со стабильностью на удивление оказалось неплохо — уже полтора года пользуемся этой моделью, и дополнительного тюнинга практически не требуется. Возможно тут помогает тот факт, что у нас уже стабильная аудитория и кардинальные изменения не часто случаются.
По поводу последующей интерпретации — долго размышляли, как это сделать и минимизировать в итоге пришли к хранению не только самих меток, но и матрицы «топик — слово — » вероятность" — это позволяет отбирать тематики простым селектом.
Но да — я согласна, что здесь одна из главных фишек — генерация гипотез.
Здравое замечание, в следующий раз продумаю заголовок лучше)
К вопросу сегментации — как вам мысль про интерпретируемые тематические кластеры?
Мне кажется, про это мало кейсов в узких датасаенс сообществах, да и статей тоже, как и в целом про unsupervised кластеризацию.
Возможно, в будущем еще немного расскажу про другие, не ML подходы, которые удачно работают для анализа клиентов (графовые, марковские цепи), если это будет интересно.
Для хороших рекомендаций в первую очередь важно понимать свою аудиторию. И первым шагом к построении рекомендательной системы или бонусных программ может быть как раз сегментация клиентской базы — у нас именно такой подход отлично сработал для карточных продуктов.
Тем не менее, у нас были мысли сделать небольшой public датасет для аналитики по этой или сходной теме (в духе kaggle), возможно, что решимся в будущем :)
И пожалуй, было бы интересно сравнить два результата — в чем будет разница в смысловом плане и в плане простоты реализации.
По поводу последующей интерпретации — долго размышляли, как это сделать и минимизировать в итоге пришли к хранению не только самих меток, но и матрицы «топик — слово — » вероятность" — это позволяет отбирать тематики простым селектом.
Но да — я согласна, что здесь одна из главных фишек — генерация гипотез.
К вопросу сегментации — как вам мысль про интерпретируемые тематические кластеры?
Мне кажется, про это мало кейсов в узких датасаенс сообществах, да и статей тоже, как и в целом про unsupervised кластеризацию.
Возможно, в будущем еще немного расскажу про другие, не ML подходы, которые удачно работают для анализа клиентов (графовые, марковские цепи), если это будет интересно.