Когда A/B-тест не показывает эффект, это не всегда значит, что эффекта нет. Иногда он просто теряется в шуме метрики.
В таких случаях обычно делают одно из трёх: увеличивают трафик, продлевают эксперимент или признают, что продуктовый эффект слишком слабый. Но есть и четвёртый путь — уменьшить дисперсию оценки. Для этого часто используют CUPED. Реже — VWE. И ещё реже обсуждают, что эти методы борются с разными источниками шума.
Код, графики и все результаты симуляции — в открытом репозитории.
Ниже разобраны две простые идеи:
CUPED даёт заметный выигр��ш, когда есть доэкспериментальная ковариата, действительно связанная с метрикой в тесте.
VWE становится уместен, когда проблема не только в уровне метрики, но и в том, что часть пользователей сильно более шумная, чем остальные.
Здесь не предлагается новый метод и не утверждается, что синтетика заменяет прод. Цель скромнее: воспроизводимый учебный эксперимент, который помогает не смешивать разные источники дисперсии. Числа в тексте согласованы с figures/correlation_study.csv и figures/power_user_study.csv при конфигурации по умолчанию в коде (n_units=4000, n_sims=300, seed=42, истинный эффект 0).
Почему вообще CUPED снижает дисперсию
Идея CUPED из работы Microsoft сводится к следующему: если есть pre-period метрика X, связанная с экспериментальной метрикой Y, можно вычесть из Y ту часть, которую объясняет X.
В простом виде:
Y_cuped = Y - θ (X - E[X]), где θ = cov(Y, X) / var(X).
Интуиция важнее формулы: если часть будущего вклада пользователя в метрику предсказуема из прошлого, её не обязательно считать неструктурированным шумом — её можно вычесть и оставить более ровный остаток.
Ключевой вывод: выигрыш CUPED определяется не самим фактом наличия исторической фичи, а корреляцией с целевой метрикой.
Где CUPED переоценивают
CUPED часто воспринимают как почти универсальную variance-reduction поправку, но на практике выигрыш сильно зависит от данных.
Типичные переоценки:
ковариата слабо связана с outcome;
историческая метрика измерена после триггера или смешаны pre- и post-treatment сигнал;
ожидают, что CUPED «вылечит» ситуацию, где основной шум — экстремальная гетерогенность дисперсии по юнитам.
В первых двух случаях выигрыш мал. В третьем CUPED может помочь частично, но источник шума другой — и отдельно имеет смысл смотреть на веса по надёжности юнита.
Симуляция 1. Что даёт корреляция
В первой симуляции задаётся pre-period метрика X и экспериментальная Y с контролируемой корреляцией. На 300 независимых прогонах сравнивается стандартное отклонение оценки эффекта для разницы средних и для CUPED (сетка целевых ρ: 0, 0.2, …, 0.95).
Главный график:

По таблице correlation_study.csv в этом прогоне:
при ρ≈0 доля снижения дисперсии относительно plain diff близка к нулю (порядка 0,2%);
при ρ≈0.6 — около 40%;
при ρ≈0.95 — около 90%.
То есть CUPED убирает не «любой шум», а в основном ту часть, которую тянет коррелированная pre-ковариата.
Вторая иллюстрация — те же оценки через стандартное отклонение:

Но что если проблема не только в корреляции?
Во второй симуляции рассматривается смесь из 88% относительно стабильных пользователей и 12% более шумных (power users). В коде у последних стандартное отклонение внутриюнитного шума в пять раз выше, чем у остальных (power_sd=5, stable_sd=1 в simulate_power_user_dataset), плюс общий разброс уровня baseline.
Даже при хорошей pre-ковариате часть шума остаётся: нестабильные юниты непропорционально раздувают дисперсию оценки.
Здесь появляется VWE — оценка с весами, обратными оценённой дисперсии юнита. В публикациях Meta/Facebook такие веса строят из pre-experiment данных; здесь — из повторных pre-наблюдений, см. estimate_unit_variances в коде.
Симуляция 2. Когда одной CUPED мало
Моделируются стабильные и «шумные» пользователи, повторные pre-наблюдения для оценки дисперсии по юниту, затем сравниваются четыре варианта: plain diff, CUPED, VWE, CUPED+VWE.
RMSE оценки эффекта (истинный эффект нулевой), тот же прогон:

Стандартные отклонения оценок:

По power_user_study.csv (округление до трёх знаков):
Метод | RMSE | SD оценки |
|---|---|---|
Plain diff | 0,073 | 0,073 |
CUPED | 0,064 | 0,064 |
VWE | 0,061 | 0,061 |
CUPED + VWE | 0,042 | 0,042 |
В этом сценарии комбинация CUPED и VWE даёт наименьшую разбросность и RMSE: методы бьют по разным компонентам шума. Переносить этот вывод на любой продуктовый эксперимент без дополнительной проверки данных нельзя.
У взвешенных схем средняя эффективная выборка по весам в этом прогоне около 2550 при номинальных 4000 юнитах — цена перераспределения веса в сторону более стабильных юнитов.
Что из этого брать в работу
Когда в первую очередь смотреть на CUPED
есть качественная pre-ковариата, измеренная до treatment;
заметная связь с outcome;
основной шум — межпользовательская систематика уровня, а не доминирование нескольких крайне нестабильных юнитов.
Когда имеет смысл думать про VWE
есть повторные наблюдения или иной способ оценить дисперсию на уровне юнита;
видно, что небольшая доля пользователей раздувает дисперсию оценки;
CUPED уже даёт выигрыш, но чувствительности всё ещё не хватает — и важно проверить, не уходит ли шум в «тяжёлых» юнитах.
Ограничения эксперимента
Синтетика — не прод. Это объясняющий эксперимент, а не claim про универсальный uplift в любой компании.
VWE здесь упрощён: воспроизводится интуиция и порядок величин, а не полная production-реализация из статьи.
Смотрим на дисперсию и RMSE оценки, а не на полный бизнес-процесс: на практике добавляются устойчивость к смещению, стоимость внедрения, мониторинг весов.
Комбинация CUPED+VWE не означает универсального преимущества — всё зависит от структуры данных и качества оценки дисперсий.
Вывод
CUPED и VWE удобно держать в голове не как «две фичи на выбор», а как ответы на разные причины шума:
CUPED уменьшает объяснимую через pre-ковариату вариативность;
VWE ослабляет влияние нестабильных юнитов, когда они портят чувствительность.
При выборе инструмента важнее не название метода, а структура шума в конкретной метрике и то, подтверждается ли она данными.
Источники
Deng et al. Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data.
Liou et al. Variance-Weighted Estimators to Improve Sensitivity in Online Experiments.
Meta Research blog: Increasing the sensitivity of A/B tests by utilizing the variance estimates of experimental units.
