Как стать автором
Обновить
3
0
Армен Есаян @armenyes

Аналитик данных

Отправить сообщение

По поводу статей

  1. Статья от Disney https://medium.com/disney-streaming/universal-holdout-groups-at-disney-streaming-2043360def4f

  2. Статья от Spotify https://engineering.atspotify.com/2020/11/spotifys-new-experimentation-platform-part-2/

Дизайны у них отличаются, но стоит выбирать ваш дизайн под реалии вашего продукта и задачи.

Привет, спасибо за вопрос!

"Гкг это ведь вечный контроль или есть какая-то разница между этими понятиями?"

Отчасти да, только в случае с ГКГ контроль не совсем "вечный", поскольку мы его перемешиваем. В разных компаниях называют по-разному.

Почему бы просто не фиксировать одних и тех же пользователей и не смотреть эффект в долгосроке? Ведь тогда вы и оцените эффект от всех crm-коммуникаций. Непонятно почему обновлять контроль корректно

Так можно делать, но зависит от того, сколько вы хотите такой эксперимент держать. Одно из условий хорошего дизайна продуктового АБ-теста - это то, что пользователи до эксперимента в тесте и в контроле ведут себя одинаково и если вы отключите свою фичу в тесте - группы станут примерно одинаковыми.

В случае если вы долго не перемешиваете пользователей в глобальном эксперименте, пользователи начинают себя вести совершенно по-разному и вы будете мерить не эффект от рассылок, а разницу между поведением пользователей, которые научились пользоваться продуктом без рассылок и с рассылками.

Вы можете проверить это математически - если вы продержите эксперимент с "вечным" контролем больше года (условно) без перемешивания и отключите рассылки на тестовую группу, то эффект не снизится до нуля, поскольку группы будут сильно отличаться. А значит, вы будете переоценивать свой эффект на данный момент от наличия коммуникаций.

Привет, спасибо за вопрос!
Смотря, что вы имеете в виду под изменением в CRM-рассылках и что подразумеваете под лояльностью.

В глобальном смысле, эксперимент с Глобальной Контрольной Группой (ГКГ) позволяет детектировать ухудшение инкрементальности рассылок по факту для разных вертикалей Авито, например, если каждая следующая отправка коммуникации начинает приносить меньше инкрементальных полезных действий юзеров или какой-то другой продуктовой метрики.

В локальном смысле (для какой-то кампании Х) - маркетологи и аналитики следят за эффективностью кампаний - за воронкой, конверсиями, проводят периодически обратные А/Б-тесты своих кампаний с целью проверить, приносит ли кампания Х тот же инкрементальный эффект, который показывала во время первого А/Б-теста. Если кампания уже не приносит инкрементального эффекта - ее отключают, улучшают и перезапускают. Искать такие кампании нам помогает CRM Score, про который рассказывал мой коллега в другой статье. В нем мы учитываем долгосрочное влияние в отписках от коммуникаций. Здесь можно посмотреть, как именно мы это делаем.

Спасибо за статью, очень интересно!

Гипотеза H_j означает, что j-й баннер дает наибольшую конверсию продажи и она больше конверсии на других баннерах, H_0 — все баннеры дают одинаковую конверсию продажи. Но возможен случай, что есть два баннера, которые дают одинаковую конверсию продажи и их конверсия максимальна. Принятие нулевой гипотезы H_0 означает не ее верность, неверность остальных k гипотез. 

Такой вопрос: а что по поводу ошибки второго рода и мощности такого подхода? Не ниже ли она по сравнению с использованием обычной поправки Бонферонни? Интуитивно кажется, что если мы принимаем H0 каждый раз, когда не можем выявить явного победителя среди k гипотез, то ошибка второго рода здесь будет выше, чем в классическом случае.

С другой стороны, чтобы скорректировать эту ошибку второго рода, увеличив размеры каждой из k выборок, но будет ли это лучше в том смысле, что суммарно понадобится меньше пользователей в группы, чем поправка Бонферонни?

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность