Обновить
1
2
Петров Иван@Niuh

Пользователь

Отправить сообщение

CUPED на практике: когда помогает, когда мешает и что проверить перед применением

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8K

CUPED часто рекомендуют как простой способ сделать A‑B тесты чувствительнее, но в реальных экспериментах он может как помочь, так и навредить. Причины почти всегда практические: историческая ковариата пересекается по времени с экспериментом, отличается единица анализа, есть пропуски или выбросы настолько велики и значительны, что оценка коэффициента становится неустойчивой.

В этом разборе я покажу CUPED на примерах, близких к продовым метрикам вроде выручки на пользователя. Мы посмотрим, почему стандартный анализ плохо работает при выбросах, как меняется ширина доверительных интервалов при добавлении CUPED, и что происходит с мощностью и ошибкой первого рода. Отдельный акцент — как выбирать исторические данные для ковариаты и как не поймать утечку воздействия в предэкспериментальный период. В конце практический набор проверок, чтобы CUPED был полезным инструментом, но не источником искаженных выводов.

Читать далее

Trustworthy experimentation для B2C: как перестать угадывать в A/B‑тестах

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.8K

В продуктовой аналитике легко дойти до того момента, когда экспериментов много, а доверия к результатам все меньше и меньше: тесты закрывают “когда стало понятно”, p-value проверяют чуть ли не каждый день (принимая преждевременные решения), MDE забывают фиксировать, а денежные метрики зашумлены так, что выводы получаются, мягко говоря, спорные.

В этой статье я показываю практический каркас для более надежных A/B-тестов в B2C: как делать анализ мощности и размера выборки для конверсии и ARPU, как интерпретировать кривую мощности анализа теста и trade-off между MDE, длительностью и доступным трафиком, и почему ratio-метрики вроде выручки на сессию часто лучше голого ARPU.

Отдельно разбираю линеаризацию ratio-метрик: как привести их к user-level значениям, чтобы применять стандартные тесты корректнее и стабильнее.

Читать далее

Информация

В рейтинге
1 239-й
Зарегистрирован
Активность

Специализация

Специалист
Старший
От 400 000 ₽
SQL
Python
Git
Базы данных
MySQL