Комментарии / Профиль Eth

Игорь Моисеев@Eth_Moses

Experimentation Analysis Team Lead, Ozon Tech

Подписчики

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses 18 фев 2023 в 19:28

Привет! Отвечу по порядку на каждый вопрос:
1. На исторических данных считаешь для интересующих тебя метрик mde за разные периоды, например за последние 7, 14, 21, 28 дней с заданными параметрами дизайна (количество групп, соотношение групп, альфа и бета) . Если например в какой либо из этих периодов mde достигает желаемого уровня , выбираешь эту длительность.
Плюс можешь прикинуть , какой буст к мощности могут дать методы снижения дисперсии.
2. Мы используем все классические методы снижения дисперсии, но их эффективность зависит от данных. Если ты можешь подобрать хорошие ковариаты и выделить стабильные отличающиеся друг от друга группы пользователей, то используй комбинацию CUPED и стратификацию. Если ковариат нет, то просто используй стратификацию. Однако лучше лучше использовать комбинацию этих методов, так как результат это не испортит, но зато извлечешь максимум прироста в чувствительности. А если еще и последовательное тестирование скрестить с методами снижения дисперсии, то будет супер!

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses 18 фев 2023 в 19:06

Привет!
Параметр ? лучше всего определить во время дизайна эксперимента, как раз когда вы рассчитываете mde/sample size. Рассчитав его перед запуском теста, зафиксируйте его до конца и используйте в mSPRT. Код mSPRT я скину в личку.
Касательно поправок на множественное тестирование. Авторы метода утверждают, что для mSPRT можно использовать классические поправки (Бонферрони и т.д.) применив их к отношению правдоподобий. Для поправки через бутстрап это тоже верно. Рассчитайте необходимую статистику по тесту в зависимости от выбранного вами критерия.

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses 15 фев 2023 в 09:33

Статистика должна отражать результаты эксперимента. Если рассматривать в качестве критерия средний p-value, то для отклонения нулевой гипотезы нас интересует критическая область расположенная слево, где p-value стремится к 0. Если мы рассмотрим в этом случае правую критическую область, то она нам ни о чем не скажет, так как она не отклоняет нулевую гипотезу (попадание туда означает, что метрики не прокрасились).
Если, например, в качестве критерия вы выбрали количество прокрасившихся метрик в тесте, то необходимо смотреть в данном случае на правую критическую область.

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses 13 фев 2023 в 08:52

Привет! Да, вероятно что изменилась дисперсия метрики по сравнению с историческими данными. Такой результат можно считать валидным, так как мощность теста при MDE = 1% не равна нулю.

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses 7 фев 2023 в 08:15

А зачем про это писать? Все знают что MW это непараметрический ранговый критерий, цель была в разоблачении мифа про проверку медиан и требований к t тесту.

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses 6 фев 2023 в 20:06

Можно, под капотом он это и делает

Шесть причин, почему ваши A/B-тесты не работают

Eth_Moses 6 фев 2023 в 13:20

Спасибо, рад что понравилось !

Как определить размер выборки для бутстрэпа старым дедовским способом

Eth_Moses 3 фев 2023 в 11:24

Привет! А вы оцениваете MDE для тестов на квантили?

Приглашаем на Ozon Tech Community A/B-testing Meetup

Eth_Moses 23 янв 2023 в 13:43

У меня просьба к вам разобраться что такое A/B тестирование прежде чем писать комментарий слабо относящийся к теме.