Как стать автором
Обновить
7
0
Наталья Галанова @pvalor

Data Scientist

Отправить сообщение
Да, в данном случае пользователи обычно не знают, что им звонит именно Skyeng. Поэтому если мы говорим не о построенной прогнозной модели, а об общем анализе конверсий по дням недели и часам — да, это достаточно общие результаты, не привязанные конкретно к специфике компании.
По поводу доверительных интервалов — согласна, с ними было бы намного нагляднее. Для примера я построила доверительные интервалы для одного из первых графиков, где представлена конверсия по дням недели общая и в разрезах Москва/Санкт-Петербург и регионы — получилось следующее:
image
Здесь хорошо видно, что в выходные доверительный интервал шире, так как там намного меньше изначальное количество совершенных звонков, но в целом доверительные интервалы получились не слишком широкими и видно, что общая зависимость по дням недели в них укладывается.

По поводу второго вопроса с рандомизацией результатов прогноза — на самом деле она уже в некотором виде есть. Модель на выходе для каждого пользователя рассчитывает слоты по часам и дням недели с вероятностями дозвона, однако, операторы не всегда выбирают наилучший слот:
Если звонок не срочный, то оператор может подобрать наиболее оптимальный слот на неделе, а в крайнем случае — если звонок откладывать уже нельзя — самый удачный момент текущего рабочего дня.

Возможно, я не до конца поняла ваш вопрос, но постараюсь всё же ответить)
Если вас интересует соотношение объема выборки и количества признаков, то могу вам ответить, что для обучения модели у нас была выборка размерностью около 50К — по всем эмпирическим rules of thumb данное соотношение вполне подходит для того, чтобы строить даже достаточно сложные модели.
Кроме того — признаки, которые остались в модели, были отобраны из большего множества как значимые (в основном на основании применения различных статистических критериев средних).
Иными словами, если какой-то признак был слабо представлен в одном из классов или не давал статистического различия между классами, то, скорее всего, он не прошел этап отбора признаков.
По поводу достоверности модели могу сказать, что все метрики, которые приведены в статье — получены по тестовой подвыборке и, кроме того, различие в метриках между обучающей и тестовой выборками было незначительное, а значит можно говорить об устойчивости прогноза.

Информация

В рейтинге
Не участвует
Откуда
Новосибирск, Новосибирская обл., Россия
Дата рождения
Зарегистрирована
Активность