anokhinn 3 дек 2014 в 16:22

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

8 мин

19K

Блог компании VKData Mining*Big Data*

+19

Комментарии 15

Spoilt333 3 дек 2014 в 16:37

Крипта, фас!

BaRoN 3 дек 2014 в 19:01

пользователь криптовалют никогда не заходит на странички на каких-нибудь товарах.майлру или тындекс.маркете?

anokhinn 3 дек 2014 в 19:07

Все совпадения случайны. При написании статьи ни один программист не пострадал.

maximw 3 дек 2014 в 17:01

Очень интересно, но не все дошло. Надо будет подробнее разобраться, особенно мат. термины и аппарат.
А то «рисовали-рисовали сову», а после заголовка «Моделирование и результаты» — опа «готовая сова» :)

anokhinn 3 дек 2014 в 19:05

На самом деле я постарался схематично пробежаться по всему подходу, посвятив пару параграфов каждому из этапов (сбор данных, конструирование признаков, выбор признаков, моделирование, валидация). В этом смысле моделирование получило не меньше внимания, чем остальные части. Если всем все понравится и мне разрешат, то я как-нибудь поподробнее напишу про моделирование.

Пока что на этот пост можно смотреть не как на инструкцию по рисованию совы, а как на демонстрацию конечного результата с небольшим пояснением: «вот какая у нас есть сова, белая и летает».

Что касается мат.части, книга Бишопа чудо как хороша.

Jeditobe 3 дек 2014 в 21:57

Мейл.ру, дарю идею. Зачем там всякая биг дата, больше о пользователях позволит узнать только тотальная слежка.

bachin 4 дек 2014 в 08:15

Статья как раз о том, как из тотальной слежки Лестрейда получить выводы, достойные Шерлока Холмса. Что толку следить за человеком, если нельзя сказать «Элементарно, Ватсон!»

jiexaspb 3 дек 2014 в 23:41

И все же, как определяете ботов (общий принцип)?
Как склеиваете логи одного пользователя, но который заходит с разных устройств или для вас это два разных пользователя?

sumej 4 дек 2014 в 10:31

Как-то непонятно:

Например, на картинке ниже первая строка соответствует посещению сайта hi-tech.mail.ru пользователем A21CE около полудня 9 апреля, а вторая строка — посещению сайта horo.mail.ru.

Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?

А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?

anokhinn 4 дек 2014 в 13:19

Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?

Да, этот идентификатор пишется в куки

А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?

Отсеиваются из-за того, что не проходят через фильтр «живых».

anokhinn 4 дек 2014 в 12:33

По поводу определения ботов — это целая большая подзадача. Используется смесь полуручного отбора на основании посещения «плохих» сайтов, анализа паттернов посещения по частоте и распределений посещений внутри дня. Также кое-какие наработки из области Фурье-анализа. Научные статьи, лежащие в основе, гуглятся.

Склеивание посещений с разных устройств происходит на основании «глобальных» идентификаторов (например, хэша почты). Но разумеется бывают и пользователи, которых нельзя сопоставить — тогда они рассматриваются как разные.

ServPonomarev 4 дек 2014 в 10:24

Приветствую!

Весьма интересная статья. Пару вопросов, если можно:

1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.
2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.

anokhinn 4 дек 2014 в 13:24

1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.

Используем, в этой статье не довелось упомянуть про все типы используемых фич.

2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.

Методы понижения размерности используем (LSA, LDA и вариации), но до Word2Vec пока не добрались. Спасибо за совет, попробуем.

ZlodeiBaal 4 дек 2014 в 13:49

Хорошая статья! Всегда приятно читать когда используются похожие алгоритмы с теми, что использую сам, но в совершенно других направлениях и тематиках.

Из логично возникших вопросов: а почему не учитываете операционку с которой сидит пользователь/тип устройства/провайдера и.т.д.? Ведь такие данные могут уже значить много сами по себе.

anokhinn 5 дек 2014 в 12:57

Как я писал, в статье для краткости не упомянуты все типы фич. На самом деле те, что Вы предложили, используются.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий