Eth_Moses Jan 24 2023 at 09:16

Шесть причин, почему ваши A/B-тесты не работают

18 min

44K

Ozon Tech corporate blogSystem Analysis and Design * Mathematics * Product Management * Statistics in IT

Review

Technotext Winner 2023

+56

Comments 19

CAXAline Jan 25 2023 at 11:45

Проведите, пожалуйста, А/В-тестирование всплывающего при каждом (!) заходе на сайт озона окна выбора как я буду покупать, как физик или юрлицо. Раздражает оно или бесит.

BorisTheFucker Feb 6 2023 at 08:27

Одна из лучших статей по АВ-тестированию в интернете и точно самая понятная. Автор респект

Eth_Moses Feb 6 2023 at 13:20

Спасибо, рад что понравилось !

4ertas2 Feb 6 2023 at 18:33

А нельзя сказать, что U-критерий Манна-Уитни сравнивает ранги двух распределений?!

Eth_Moses Feb 6 2023 at 20:06

Можно, под капотом он это и делает

4ertas2 Feb 7 2023 at 07:40

Почему было это не описать в статье?! Мне кажется, что тема с U-критерием Манна-Уитни не раскрыта до конца. Остался прям последний шаг?

Eth_Moses Feb 7 2023 at 08:15

А зачем про это писать? Все знают что MW это непараметрический ранговый критерий, цель была в разоблачении мифа про проверку медиан и требований к t тесту.

interview_age Feb 8 2023 at 10:45

Спасибо за материал

darthhash Feb 9 2023 at 07:01

Почитал статью в приложении, круто конечно с дельта методом, я раньше использовал hierarchical modeling, решал такие тесты регрессией, чтобы учесть зависимость, а там оказывается все равно оценка смещенная, если кластеры разные по размеру и средним. Спасибо статья очень полезная!

DariaIg Feb 11 2023 at 12:20

Спасибо, очень интересная статья!

Heacaptain Feb 13 2023 at 07:49

такой вопрос напрашивается, представим что у нас MDE 3% а тест показывается статзначимый 1%, случилось это из-за разницы дисперсий между историческими и тестовыми данными, нужно ли пересчитывать MDE на данных теста или можно просто довериться статтесту ?

Eth_Moses Feb 13 2023 at 08:52

Привет! Да, вероятно что изменилась дисперсия метрики по сравнению с историческими данными. Такой результат можно считать валидным, так как мощность теста при MDE = 1% не равна нулю.

Philipp_Che Feb 13 2023 at 09:05

Крутая статья. После прочтения сразу стал понятен полный пайплайн AB тестирования

Dimotey Feb 14 2023 at 18:04

Вопрос про бутстрапирование статистики характеризующей тест в целом: низкий средний pvalue(из критической области) в конкретном тесте говорит нам о том что скорее всего метрики в тесте прокрасились чаще обычного. А что может нам сказать другая сторона распредения, что если средний pvalue(или другая статистика) окажется справа например за 3 сигмы то среднего? ну тоесть это как минимум значит что меньшее кол-во метрик прокрасилось, но и при этом можно ли отвергнуть нулевую гипотезу? нам это может о чем то сказать о данных или ?

Eth_Moses Feb 15 2023 at 09:33

Статистика должна отражать результаты эксперимента. Если рассматривать в качестве критерия средний p-value, то для отклонения нулевой гипотезы нас интересует критическая область расположенная слево, где p-value стремится к 0. Если мы рассмотрим в этом случае правую критическую область, то она нам ни о чем не скажет, так как она не отклоняет нулевую гипотезу (попадание туда означает, что метрики не прокрасились).
Если, например, в качестве критерия вы выбрали количество прокрасившихся метрик в тесте, то необходимо смотреть в данном случае на правую критическую область.

mike_bell Feb 18 2023 at 18:48

Добрый день! Спасибо за статью! Возникло несколько вопросов по ранней остановке тестов:
1) Как правильно определить параметр ? ? Как я понял это можно сделать на исторических данных перед запуском, так ли это ?
2) Работает ли предложенный вами способ множественного тестирования для ранней остановки тестов? Нам ведь все равно необходимо контролировать FWER.
3) Можете пожалуйста поделиться реализацией для mSPRT?

Eth_Moses Feb 18 2023 at 19:06

Привет!
Параметр ? лучше всего определить во время дизайна эксперимента, как раз когда вы рассчитываете mde/sample size. Рассчитав его перед запуском теста, зафиксируйте его до конца и используйте в mSPRT. Код mSPRT я скину в личку.
Касательно поправок на множественное тестирование. Авторы метода утверждают, что для mSPRT можно использовать классические поправки (Бонферрони и т.д.) применив их к отношению правдоподобий. Для поправки через бутстрап это тоже верно. Рассчитайте необходимую статистику по тесту в зависимости от выбранного вами критерия.

nataliremi08 Feb 18 2023 at 18:48

Очень крутая работа с точки зрения прикладного применения, требует погружения, конечно.
У меня возникло несколько вопросов в процессе, буду рада, если ты дашь пару комментариев)
- Как определить оптимальный срок проведения теста, чтобы не затянуть и не потерять в мощности критерия?
- Есть вопросы по поводу методов снижения дисперсии, каким отдаёте предпочтение? Понимаю, что каждый из них используется под разные условия, но все-таки.
- Можно ли отнести к стратификации разделение пользователей по объему вклада в ratio-метрику?

Eth_Moses Feb 18 2023 at 19:28

Привет! Отвечу по порядку на каждый вопрос:
1. На исторических данных считаешь для интересующих тебя метрик mde за разные периоды, например за последние 7, 14, 21, 28 дней с заданными параметрами дизайна (количество групп, соотношение групп, альфа и бета) . Если например в какой либо из этих периодов mde достигает желаемого уровня , выбираешь эту длительность.
Плюс можешь прикинуть , какой буст к мощности могут дать методы снижения дисперсии.
2. Мы используем все классические методы снижения дисперсии, но их эффективность зависит от данных. Если ты можешь подобрать хорошие ковариаты и выделить стабильные отличающиеся друг от друга группы пользователей, то используй комбинацию CUPED и стратификацию. Если ковариат нет, то просто используй стратификацию. Однако лучше лучше использовать комбинацию этих методов, так как результат это не испортит, но зато извлечешь максимум прироста в чувствительности. А если еще и последовательное тестирование скрестить с методами снижения дисперсии, то будет супер!