Спасибо за вопросы! 1. Да, эксперименты были на смоделированных данных с заранее заданным аплифтом.
2. Вы правы, здесь для примера использовался данный метод. Но при использовании МСМС можно не ограничивать себя в распределениях и выбирать то, которое кажется наиболее подходящим для ваших продуктовых метрик. Поэтому описанный вами пример может быть полезен, так как более точно описывает исходное распределение.
3. Для примера и эксперимента по сравнению подходов применялся аналитический метод, поэтому для них специальные библиотеки по байесовским методам не требуются. Для статистики использовалась библиотека SciPy (stats, special). Пример кода на питоне можно посмотреть в библиотеке GrowthBook.
4. Чувствительность байесовского подхода на разных аплифтах оценивала для критерия вероятности, что конверсия в одной из групп выше. Проводила итерации и сравнивала долю экспериментов, когда разница по данному критерию была обнаружена.
5. Тема стала интересна, так как на практике видели ограничения частотного подхода. Байесовский подход заинтересовал возможностью по-новому посмотреть на АБ тесты и уменьшить эти ограничения.
Спасибо, что подметили. Действительно, на основе данного эксперимента можно утверждать о более высокой чувствительности только в случае биномиального распределения.
Хочу добавить, что помимо рассмотренной чувствительности байесовский подход имеет и другие преимущества: 1) Возможность не фиксировать сроки проведения теста и подводить предварительные итоги. 2) Наличие хорошо интерпретируемых и количественных критериев для принятия решения. 3) Возможность делать выводы по результатам теста при недостаточных для частотного подхода размерах выборки.
Спасибо за обратную связь! 1) Для частотного подхода использовался z-test. Применяла его с учетом того, что биномиальное распределение при больших выборках сходится к нормальному. Оба подхода сравнивались на выборках из биномиального распределения с заданными параметрами (в соответствии с базовой конверсией и эффектом).
2) Корректировку на множественность гипотез не применяла исходя из того, что на одной выборке тестировалась только одна гипотеза. Из метрик сравнивалась только мощность. Ошибку 1 рода в данном эксперименте посчитать нельзя - изначально в распределения искусственно примешивался эффект (10% / 25% / 50%). Поэтому не могло быть случаев, когда эффекта не было, но он был обнаружен.
Спасибо за вопросы!
1. Да, эксперименты были на смоделированных данных с заранее заданным аплифтом.
2. Вы правы, здесь для примера использовался данный метод. Но при использовании МСМС можно не ограничивать себя в распределениях и выбирать то, которое кажется наиболее подходящим для ваших продуктовых метрик. Поэтому описанный вами пример может быть полезен, так как более точно описывает исходное распределение.
3. Для примера и эксперимента по сравнению подходов применялся аналитический метод, поэтому для них специальные библиотеки по байесовским методам не требуются. Для статистики использовалась библиотека SciPy (stats, special).
Пример кода на питоне можно посмотреть в библиотеке GrowthBook.
Для иллюстрации MCMC использовался пакет pymc3, код можно посмотреть здесь:
Bayesian A/B Testing: a step-by-step guide
abyes/ab_exp.py at master · cbellei/abyes · GitHub
4. Чувствительность байесовского подхода на разных аплифтах оценивала для критерия вероятности, что конверсия в одной из групп выше. Проводила итерации и сравнивала долю экспериментов, когда разница по данному критерию была обнаружена.
5. Тема стала интересна, так как на практике видели ограничения частотного подхода. Байесовский подход заинтересовал возможностью по-новому посмотреть на АБ тесты и уменьшить эти ограничения.
Спасибо, что подметили. Действительно, на основе данного эксперимента можно утверждать о более высокой чувствительности только в случае биномиального распределения.
Хочу добавить, что помимо рассмотренной чувствительности байесовский подход имеет и другие преимущества:
1) Возможность не фиксировать сроки проведения теста и подводить предварительные итоги.
2) Наличие хорошо интерпретируемых и количественных критериев для принятия решения.
3) Возможность делать выводы по результатам теста при недостаточных для частотного подхода размерах выборки.
Спасибо за обратную связь!
1) Для частотного подхода использовался z-test. Применяла его с учетом того, что биномиальное распределение при больших выборках сходится к нормальному. Оба подхода сравнивались на выборках из биномиального распределения с заданными параметрами (в соответствии с базовой конверсией и эффектом).
2) Корректировку на множественность гипотез не применяла исходя из того, что на одной выборке тестировалась только одна гипотеза.
Из метрик сравнивалась только мощность. Ошибку 1 рода в данном эксперименте посчитать нельзя - изначально в распределения искусственно примешивался эффект (10% / 25% / 50%). Поэтому не могло быть случаев, когда эффекта не было, но он был обнаружен.
Спасибо! Вы правы, это будет хорошим направлением для дальнейшего исследования.