Comments 8
Макс, спасибо за статью
Кстати, эффективность рекламной активности, мы, как и прежде в классическом подходе, оценивали именно через привлечение трафика. На средний чек в данном случае ориентира не было, так как считается, что на поведение покупателя в магазине, и, соответственно, сумму, которую он там оставит, влияет много дополнительных факторов (система скидок, реклама внутри самих магазинов). Поэтому пытаться связывать средний чек с объёмами рекламы на внешних носителях было бы сложно и не очень корректно.
Но ведь трафик может быть абсолютно разный? То есть мы же можем привести целевую аудиторию или не целевую да и вообще есть подозрение что с увеличением трафика, его качество естественным образом падает. Что ты сам лично думаешь по поводу того, имеет ли смысл отслеживтаь средний чек? Может пришли люди, которые накупили только товаров, продающихся ниже маржи (Сахара например)
Традиционно считается, что есть оптимальная точка насыщения, после которой эффективность вклада снижается и падает до нуля. То есть при увеличении затрат эффективность не вырастет. Сейчас у всех крупных ретейлеров на рынке объёмы инвестиций в рекламу находятся за точкой насыщения, и в целом это осознанная стратегия.
А вот тут кстати интересно, ведь это же нетолько объем как есть но и доля? Возможно если конкуренты тратят больше денег то и мы должны, иначе доля упадет?
Результаты модели также привели к оценкам ROI, показатели которого стабильно превышали 10. Несмотря на то, что вывод реализованной модели говорит о высокой эффективности, при увеличении затрат ROI, как правило, начинает снижение из‑за ограничения ёмкости рынка и кривых отклика от рекламы.
ROI 10 это же супер! При таком ROI можно ведь смело максимизировать затраты, при ограничении ROI на уровне не ниже банковской ставки, что то вроде 1.15. Почему бы наооборот не вливать больше? Или есть подозрение что это уже максимум ревенью ?
Послдений вопрос, правильно понимаю что обновляли коэффициенты после проведения экспериментов и смотрели их распределение во времени?
Валера, привет!
По первому вопросу: тут дело в задаче медиа-маркетинга — он направлен на то, чтобы привести людей, но не на то, что происходит в магазине. За количество людей условно отвечает медиа-агентство. За продажи внутри — маркетинг торговой сети и сам магазин. В целом замечание правильное, и иногда делают отдельно исследование на средний чек. Либо добавляют его как признак в модель.
По второму вопросу: одна из стандартных стратегий у больших рекламодателей — иметь долю SoV (share of voice) не ниже определённой. Очевидно, если несколько рекламодателей будут придерживаться этой стратегии, то они будут "перегревать" рынок. Ну, например, в этом месяце у нас SoV 10%, а нужен 30%. Делаем допразмещение, и уже у конкурента будет 10% и он тоже сделает допразмещение. Что в целом сейчас и происходит во многих сегментах. Наша гипотеза как раз и говорит: не важно, какая у вас доля, но если суммарный объём больше некоторой точки, то уже эффекта не будет. Можно попытаться отказаться от стратегии и снизить затраты, тем самым резко повысив эффективность (траты вниз, эффект такой же).
По третьему вопросу: да, суть в том, что больше эффекта не наблюдается при увеличении вливания. Это в некотором виде ловушка — вроде бы ROI высокий и можно и дальше заливать денег безопасно. Но фактически это бессмысленно. Даже если увеличить охват в два раза (т.е. каждый человек будет видеть рекламу в среднем в два раза больше), то люди всё равно дополнительно не вовлекутся.
Четвёртый вопрос: по времени тоже смотрели, но просто как на один из параметров распределения. Детально изучить не хватало данных. После экспериментов требовалось обновить модель, но наш отдел в это уже не вовлекался. Наша роль на этом этапе закончилась.
Если правильно понял, вы вручную собираете отдельные факторы, а потом на их основе создаете синтетические путем нелинейных трансформаций, получая несколько небольших моделей, повышающих интерпретируемость.
Не получится ли при таком подходе, что будет пропущена определенная комбинация факторов, которые формируют полезный сигнал только вместе в совокупности и которую могла бы модель побольше распознать автоматически? Возможно есть вариант, когда можно будет получать преимущества обоих подходов.
Условно для анализа изображений никто руками не создаёт фичи нос лисы или нос кабана. Понятно, что у вас скорее классический ML и не все так просто.
Также для медиа-эффектов наверное будет полезно как-то оцифровать что именно говорится (например прогнать через языковую модель) - стиль повествования мягко/агрессивно и т.п. Возможно в разных регионах будет по разному.
Добрый день! Такое в целом возможно, но это обозначает, что изначальная гипотеза о линейных (или трансформированных из линейных) зависимостях некорректна. Также не надо забывать, что чем больше разных трансформаций будет использовано, тем больше шанс случайно получить ложно-положительный результат. Т.е. при простых признаках модель будет лучше регуляризована, при сложных - может переобучиться.
Про оцифровку - делают довольно простую категоризацию медиасообщений по общему посылу и добавляют его как признак. Например: промо, весенняя кампания, описание бренда в целом, ролик со знаменитостью и пр. Более сложные методы дадут много признаков, но их может оказаться больше, чем строк данных (обычно это количество равно "количество регионов" * "количество дней/недель" * "количество магазинов").
Интересно, как то контролировалось на поправку при множественном тестировании? Ведь когда мы прогоняем N моделей, то мы всегда должны увеличивать порог для значимости фактора.
После этого были получены предсказания, их проверка и была экспериментом
А каким образом прогноз y получался?
Перебором моделей мы просто лучшую выбираем и по ней смотрим ? Или как то общим голосованием моделей смотрим медианный/средний коэффициент по каждому значимому фактору и делаем прогноз y ?
Здравствуйте! Поправку не делали, т.к. никакого решения не надо принимать после симуляции. Только оценить распределение p-value и коэффициентов. Поправку делают, если надо принять или отклонить гипотезу на основе нескольких измерений, и у каждого свой p-value. Тогда порог принятия решения снижают, чтобы быть уверенными в результате.
Вторая часть вопроса - вначале по распределениям оцениваем, какие факторы часто/постоянно являются значимыми, затем уже строим снова распределение только с выбранными факторами и оцениваем/решаем, какие значения коэффициентов являются максимально правдоподобными. Т.е. получаем семейство моделей вместо какой-то одной (наилучшей по какой-то функции или удовлетворяющей некоторым требованиям).
Так кажется добавить или удалить фактор - это и есть принятие решения. «на основе нескольких измерений» - каждая модель по сути - это измерение
Не совсем понял в конечном счете как вы используете результат. Вы просто коэффициенты вытаскиваете или каким то образом генерируете прогнозы по вашим семействам моделей, а потом берете агрегат по ним ? Вы же пишите в статье, что вас интересуют прогнозы на новых данных - какой трафик будет при том или ином объеме рекламы.
Приветствую! По первому вопросу: имеется ввиду бизнес-решение. Для анализа нам нет необходимости вводить поправки.
По второму: распределения нужны, чтобы понять значимость факторов более достоверно. Также они позволяют вместо одной случайной оценки коэффициента посчитать, например, среднюю. Это и будет вклад фактора. Если так не делать, то есть шанс получить удачный или неудачный коэффициент.
Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов