Комментарии 4
Однако мы решили довериться решению ансамбля и не стали наказывать его за излишнюю наглостьоптимистичность прогноза. И как оказалось — не зря.
Я, может, невнимательно читал — почему не зря-то?
Мне кажется, что посещение фитнес-клуба — это в первую очередь процесс. Соответственно, прекращение посещений — терминальное событие в этом процессе. Исходя из этого логичнее было бы предсказывать дату прекращения посещений, ну или вероятность прекращения в ближайшее время, если это удобнее для текущего метода.
Бизнес-цель работы — дать менеджменту время (в идеале месяц-два), чтобы замотивировать потерявшего интерес посетителя к продолжению, т.е. предоставить систему, маркирующую клиентов как имеющих тенденцию к непродлению абонемента.
Исходя из этого, логичнее было бы:
1) использовать методы анализа процессов, а не конечных наборов данных
2) все же искать поведенческие паттерны, характерные для клиентов, потерявших интерес к занятиям. (наверняка среди них будут нерегулярность посещений, частые заморозки, уменьшение количества потребляемых услуг, неравномерная длительность посещений, снижение частоты посещений)
Резюмируя, мое мнение — выбранный метод вообще не соответствует задаче (не исключаю, что и предоставленный заказчиком набор данных не слишком ей соответствовал).
Статья довольно куцая и из нее тяжело понять, как конкретно работала представленная система и какой точности предсказания удалось добиться, что были за исходные данные.
Бизнес-цель работы — дать менеджменту время (в идеале месяц-два), чтобы замотивировать потерявшего интерес посетителя к продолжению, т.е. предоставить систему, маркирующую клиентов как имеющих тенденцию к непродлению абонемента.
Исходя из этого, логичнее было бы:
1) использовать методы анализа процессов, а не конечных наборов данных
2) все же искать поведенческие паттерны, характерные для клиентов, потерявших интерес к занятиям. (наверняка среди них будут нерегулярность посещений, частые заморозки, уменьшение количества потребляемых услуг, неравномерная длительность посещений, снижение частоты посещений)
Резюмируя, мое мнение — выбранный метод вообще не соответствует задаче (не исключаю, что и предоставленный заказчиком набор данных не слишком ей соответствовал).
Статья довольно куцая и из нее тяжело понять, как конкретно работала представленная система и какой точности предсказания удалось добиться, что были за исходные данные.
Добрый день! Безусловно, вы правы, — цели бизнеса отличаются от целей данного соревнования. Для бизнеса важно понимать процесс взаимодействия клиента с предоставляемыми услугами, отслеживать тенденции, предупреждать возможный отток и т.д. Соответственно необходим ввод различных метрик для учёта паттернов и изменений, а также методов для удержания клиентов, отнесённых к зоне риска.
На хакатоне же необходимо было предсказать вероятность продления клиентом контракта с клубом на конкретный период времени, т.е. некоторого конечного события в текущем процессе. Конечно, поведенческие паттерны необходимы и здесь, и мы постарались в некотором виде учесть их временную структуру при создании финального набора данных (в том числе регулярность посещений, частоту звонков, сезоны наибольшей активности и т.п.). Однако, так как не было необходимости проводить анализ выживаемости, с построением временного распределения вероятности оттока клиента, мы решили отказаться от непосредственного анализа процессов.
В результате, получили некоторую «гибридную» систему, которая искала придуманные нами признаки во временных рядах и отмечала их наличие/отсутствие в конечном наборе данных. К сожалению, точность на тестовых данных организаторами не сообщалась, но на валидации AUC составил порядка 0.98.
На хакатоне же необходимо было предсказать вероятность продления клиентом контракта с клубом на конкретный период времени, т.е. некоторого конечного события в текущем процессе. Конечно, поведенческие паттерны необходимы и здесь, и мы постарались в некотором виде учесть их временную структуру при создании финального набора данных (в том числе регулярность посещений, частоту звонков, сезоны наибольшей активности и т.п.). Однако, так как не было необходимости проводить анализ выживаемости, с построением временного распределения вероятности оттока клиента, мы решили отказаться от непосредственного анализа процессов.
В результате, получили некоторую «гибридную» систему, которая искала придуманные нами признаки во временных рядах и отмечала их наличие/отсутствие в конечном наборе данных. К сожалению, точность на тестовых данных организаторами не сообщалась, но на валидации AUC составил порядка 0.98.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Предсказание вероятности перехода каждого клиента компании в статус бывшего члена клуба