Привет! Отвечу по порядку на каждый вопрос: 1. На исторических данных считаешь для интересующих тебя метрик mde за разные периоды, например за последние 7, 14, 21, 28 дней с заданными параметрами дизайна (количество групп, соотношение групп, альфа и бета) . Если например в какой либо из этих периодов mde достигает желаемого уровня , выбираешь эту длительность. Плюс можешь прикинуть , какой буст к мощности могут дать методы снижения дисперсии. 2. Мы используем все классические методы снижения дисперсии, но их эффективность зависит от данных. Если ты можешь подобрать хорошие ковариаты и выделить стабильные отличающиеся друг от друга группы пользователей, то используй комбинацию CUPED и стратификацию. Если ковариат нет, то просто используй стратификацию. Однако лучше лучше использовать комбинацию этих методов, так как результат это не испортит, но зато извлечешь максимум прироста в чувствительности. А если еще и последовательное тестирование скрестить с методами снижения дисперсии, то будет супер!
Привет! Параметр ? лучше всего определить во время дизайна эксперимента, как раз когда вы рассчитываете mde/sample size. Рассчитав его перед запуском теста, зафиксируйте его до конца и используйте в mSPRT. Код mSPRT я скину в личку. Касательно поправок на множественное тестирование. Авторы метода утверждают, что для mSPRT можно использовать классические поправки (Бонферрони и т.д.) применив их к отношению правдоподобий. Для поправки через бутстрап это тоже верно. Рассчитайте необходимую статистику по тесту в зависимости от выбранного вами критерия.
Статистика должна отражать результаты эксперимента. Если рассматривать в качестве критерия средний p-value, то для отклонения нулевой гипотезы нас интересует критическая область расположенная слево, где p-value стремится к 0. Если мы рассмотрим в этом случае правую критическую область, то она нам ни о чем не скажет, так как она не отклоняет нулевую гипотезу (попадание туда означает, что метрики не прокрасились). Если, например, в качестве критерия вы выбрали количество прокрасившихся метрик в тесте, то необходимо смотреть в данном случае на правую критическую область.
Привет! Да, вероятно что изменилась дисперсия метрики по сравнению с историческими данными. Такой результат можно считать валидным, так как мощность теста при MDE = 1% не равна нулю.
А зачем про это писать? Все знают что MW это непараметрический ранговый критерий, цель была в разоблачении мифа про проверку медиан и требований к t тесту.
Привет! Отвечу по порядку на каждый вопрос:
1. На исторических данных считаешь для интересующих тебя метрик mde за разные периоды, например за последние 7, 14, 21, 28 дней с заданными параметрами дизайна (количество групп, соотношение групп, альфа и бета) . Если например в какой либо из этих периодов mde достигает желаемого уровня , выбираешь эту длительность.
Плюс можешь прикинуть , какой буст к мощности могут дать методы снижения дисперсии.
2. Мы используем все классические методы снижения дисперсии, но их эффективность зависит от данных. Если ты можешь подобрать хорошие ковариаты и выделить стабильные отличающиеся друг от друга группы пользователей, то используй комбинацию CUPED и стратификацию. Если ковариат нет, то просто используй стратификацию. Однако лучше лучше использовать комбинацию этих методов, так как результат это не испортит, но зато извлечешь максимум прироста в чувствительности. А если еще и последовательное тестирование скрестить с методами снижения дисперсии, то будет супер!
Привет!
Параметр ? лучше всего определить во время дизайна эксперимента, как раз когда вы рассчитываете mde/sample size. Рассчитав его перед запуском теста, зафиксируйте его до конца и используйте в mSPRT. Код mSPRT я скину в личку.
Касательно поправок на множественное тестирование. Авторы метода утверждают, что для mSPRT можно использовать классические поправки (Бонферрони и т.д.) применив их к отношению правдоподобий. Для поправки через бутстрап это тоже верно. Рассчитайте необходимую статистику по тесту в зависимости от выбранного вами критерия.
Статистика должна отражать результаты эксперимента. Если рассматривать в качестве критерия средний p-value, то для отклонения нулевой гипотезы нас интересует критическая область расположенная слево, где p-value стремится к 0. Если мы рассмотрим в этом случае правую критическую область, то она нам ни о чем не скажет, так как она не отклоняет нулевую гипотезу (попадание туда означает, что метрики не прокрасились).
Если, например, в качестве критерия вы выбрали количество прокрасившихся метрик в тесте, то необходимо смотреть в данном случае на правую критическую область.
Привет! Да, вероятно что изменилась дисперсия метрики по сравнению с историческими данными. Такой результат можно считать валидным, так как мощность теста при MDE = 1% не равна нулю.
А зачем про это писать? Все знают что MW это непараметрический ранговый критерий, цель была в разоблачении мифа про проверку медиан и требований к t тесту.
Можно, под капотом он это и делает
Спасибо, рад что понравилось !
Привет! А вы оцениваете MDE для тестов на квантили?
У меня просьба к вам разобраться что такое A/B тестирование прежде чем писать комментарий слабо относящийся к теме.