Search
Write a publication
Pull to refresh
45
0
Настя Семенова @samy1010

аналитик данных

Send message
  1. В случае такого распределения предпочтений мы не будем учитывать разницу) аффинитивность рассчитывается по принципу «на сколько процентов чаще бренд встречается в целевой аудитории, чем в случайной». После расчета этой величины выбираются бренды с высокой абсолютной (по модулю) аффинитивностью, отбрасываются редкие бренды и потом получаем результат. В приведенном Вами примере (50к чеков, 25к+1 бренд_1, 25к-1 бренд_2) будет взята выборка минимум десятикратного объема случайных профилей, в которых мы рассмотрим встречаемости бренд_1 и бренд_2. Если распределение в случайной выборке будет такое же, как и в рассматриваемой аудитории 50к, то скорее всего этих брендов в отчете мы даже и не увидим.

  2. Гарантировать не могу, так как даже в обычной жизни «спутниковость» одного бренда к другому - отношение не коммутативное, можно привести пример. К виски какого-то Бренда можно ожидать высокую аффинивность покупки колы, но обратное неверно. К коле покупка виски скорее всего будет редкой.

  3. Да, были такие кейсы, однако они были реализованы нашими партнерами по итогу полученных инсайтов и мы не можем раскрывать детали.

Да, такое вполне возможно из-за особенностей интересов данной аудитории) есть гипотеза, что указанный интерес обратно пропорционален уровню IT-просвещённости
Есть гипотеза, что из разрозненных источников будет очень тяжело связать данные) И в предложенных условиях выборка людей получится смещённой, то есть аудитория, охватываемая такими данными, будет содержать только определенный класс людей.
Насчёт того, что модель — чёрный ящик, в общем случае верно. Для того, чтобы измерить вклад признака, мы предварительно строим классические модели разных семейств (линейные, там легко вернуть веса, и «деревянные» с реализацией feature importance) и возвращаем из них важность признака. Именно таким образом выявляем «чрезмерность» вклада той или иной покупки.
Критерием отброса признака является чрезмерный вклад. То есть если получается, что АБВГД — да, а БВГД — нет, (то есть решение принимается на основе только одного признака А) и если существенное количество положительных решений принимается только на одном этом признаке, то считаем такой признак шумящим. В терминах уточек это означает, что не всё утка, что крякает :-)
Помимо самой базы было бы неплохо при решении указанной задачи ещё иметь разметку по медицинским показателям) Но это уже из разряда фантастики, такие датасеты просто незаконны. Только если люди сами пожелают участвовать в эксперименте и принесут вам свои данные, вы сможете провести анализ!
Да, это безусловно логично, что беременная женщина пользуется услугами доставки товаров. Но давайте поразмышляем: а только ли беременные покупают озон премиум? И вот тут мы понимаем, что ещё обширное множество людей оплачивают этот статус: родители с маленькими (до 3-х лет) детьми, маломобильные группы населения, очень занятые на работе люди заказывают доставку прямо в офис, а есть ещё просто домоседы. То есть этот признак вызывает переобучение модели и как следствие неверный таргетинг. Если его оставить, то рекламная кампания рискует быть неэффективной, ведь мы старгетимся не на беременных, а на тех людей, кто предпочитает доставку походам по магазинам.

Information

Rating
Does not participate
Location
Россия
Works in
Registered
Activity