Обновить
14
Артем Ерохин@gofat

Data Scientist

4
Подписчики
Отправить сообщение
Важно ли, что я в заявке не заполнил имена коллег по команде?
Люди есть, просто так быстро состав «не утрясся» и имена все равно поменялись бы.
При регистрации сколько примерно ждать подтверждения?
Замечание не в том, что это никак не соотносится, а в том, что есть отдельный тип задач, связанный именно с рекомендательными системами. И ваша статья больше про сегментацию и предварительный анализ данных, чем про рекомендации.

То есть я не говорю, то статья плохая. Скорее название вводит в заблуждение.
Не понял, при чем тут рекомендации?
Это сегментирование аудитории и кластерный анализ.
Больше похоже, что вы оставили только кандидатов с навыками поиска т.н. «ликов» в данных. Не то, чтобы это не коррелировало с умением копаться в данных, но все же это весьма специфичный навык, не всегда совпадающий с реальным опытом.
Помнится, мы на одном из предыдущих мест брали данные дорожной службы UK, для которых просили сделать EDA и модель, предсказывающую число ДТП на следующий год. Впрочем, такой подход не защищает от «гугления» датасета.
Попадался на эту удочку (просто редирект, клик далее, опа, и ты уже потерял n нефти).
Вернули деньги только после того, как пригрозил уйти к другому оператору.
Какое качество модели получено?
Подскажу инструмент — seaborn. Часть группировок можно смело перенести на его стандартные средства. Ну и графики выглядят приятнее для глаза.
Интересно сделано, спасибо за статью.

Можно еще было что-нибудь дополнительно использовать из pre-trained сетей (условный imagenet, к примеру), чтобы вытащить дополнительную информацию для анализа.
Ну и любопытно во времени поглядеть, как меняются вкусы для фото-мест за год, к примеру.
Вот статьи, где на примерах показывают ограничения:
freerangestats.info/blog/2016/12/10/extrapolation
medium.com/datadriveninvestor/why-wont-time-series-data-and-random-forests-work-very-well-together-3c9f7b271631

В целом, при постоянном дообучении, либо при отсутствии долговременного тренда, а так же при достаточно «близких» во времени предсказаниях, можно и его использовать. Но это может быть чревато проблемами в реализации.
Странновато выглядит график с продажами в день прогноза, как топовой фичей. Вы уверены, что у вас модель не «протекала»? А то выглядит, будто вы частично на ответе обучались.
И еще вопрос — а почему не исключить сезонность и тренд из данных простой моделью, а уже по остаткам от нее пройтись RandomForest'ом? Он же тренд не сможет поймать.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность