Комментарии 15
Крипта, фас!
Очень интересно, но не все дошло. Надо будет подробнее разобраться, особенно мат. термины и аппарат.
А то «рисовали-рисовали сову», а после заголовка «Моделирование и результаты» — опа «готовая сова» :)
А то «рисовали-рисовали сову», а после заголовка «Моделирование и результаты» — опа «готовая сова» :)
На самом деле я постарался схематично пробежаться по всему подходу, посвятив пару параграфов каждому из этапов (сбор данных, конструирование признаков, выбор признаков, моделирование, валидация). В этом смысле моделирование получило не меньше внимания, чем остальные части. Если всем все понравится и мне разрешат, то я как-нибудь поподробнее напишу про моделирование.
Пока что на этот пост можно смотреть не как на инструкцию по рисованию совы, а как на демонстрацию конечного результата с небольшим пояснением: «вот какая у нас есть сова, белая и летает».
Что касается мат.части, книга Бишопа чудо как хороша.
Пока что на этот пост можно смотреть не как на инструкцию по рисованию совы, а как на демонстрацию конечного результата с небольшим пояснением: «вот какая у нас есть сова, белая и летает».
Что касается мат.части, книга Бишопа чудо как хороша.
Мейл.ру, дарю идею. Зачем там всякая биг дата, больше о пользователях позволит узнать только тотальная слежка.
И все же, как определяете ботов (общий принцип)?
Как склеиваете логи одного пользователя, но который заходит с разных устройств или для вас это два разных пользователя?
Как склеиваете логи одного пользователя, но который заходит с разных устройств или для вас это два разных пользователя?
Как-то непонятно:
Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?
А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?
Например, на картинке ниже первая строка соответствует посещению сайта hi-tech.mail.ru пользователем A21CE около полудня 9 апреля, а вторая строка — посещению сайта horo.mail.ru.
Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?
А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?
Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?
Да, этот идентификатор пишется в куки
А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?
Отсеиваются из-за того, что не проходят через фильтр «живых».
По поводу определения ботов — это целая большая подзадача. Используется смесь полуручного отбора на основании посещения «плохих» сайтов, анализа паттернов посещения по частоте и распределений посещений внутри дня. Также кое-какие наработки из области Фурье-анализа. Научные статьи, лежащие в основе, гуглятся.
Склеивание посещений с разных устройств происходит на основании «глобальных» идентификаторов (например, хэша почты). Но разумеется бывают и пользователи, которых нельзя сопоставить — тогда они рассматриваются как разные.
Склеивание посещений с разных устройств происходит на основании «глобальных» идентификаторов (например, хэша почты). Но разумеется бывают и пользователи, которых нельзя сопоставить — тогда они рассматриваются как разные.
Приветствую!
Весьма интересная статья. Пару вопросов, если можно:
1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.
2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.
Весьма интересная статья. Пару вопросов, если можно:
1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.
2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.
1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.
Используем, в этой статье не довелось упомянуть про все типы используемых фич.
2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.
Методы понижения размерности используем (LSA, LDA и вариации), но до Word2Vec пока не добрались. Спасибо за совет, попробуем.
Хорошая статья! Всегда приятно читать когда используются похожие алгоритмы с теми, что использую сам, но в совершенно других направлениях и тематиках.
Из логично возникших вопросов: а почему не учитываете операционку с которой сидит пользователь/тип устройства/провайдера и.т.д.? Ведь такие данные могут уже значить много сами по себе.
Из логично возникших вопросов: а почему не учитываете операционку с которой сидит пользователь/тип устройства/провайдера и.т.д.? Ведь такие данные могут уже значить много сами по себе.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru