Pull to refresh
9
0
Send message

Спасибо за вопросы!
1. Да, эксперименты были на смоделированных данных с заранее заданным аплифтом.

2. Вы правы, здесь для примера использовался данный метод. Но при использовании МСМС можно не ограничивать себя в распределениях и выбирать то, которое кажется наиболее подходящим для ваших продуктовых метрик. Поэтому описанный вами пример может быть полезен, так как более точно описывает исходное распределение.

3. Для примера и эксперимента по сравнению подходов применялся аналитический метод, поэтому для них специальные библиотеки по байесовским методам не требуются. Для статистики использовалась библиотека SciPy (stats, special).
Пример кода на питоне можно посмотреть в библиотеке GrowthBook.

Для иллюстрации MCMC использовался пакет pymc3, код можно посмотреть здесь:
Bayesian A/B Testing: a step-by-step guide
abyes/ab_exp.py at master · cbellei/abyes · GitHub

4. Чувствительность байесовского подхода на разных аплифтах оценивала для критерия вероятности, что конверсия в одной из групп выше. Проводила итерации и сравнивала долю экспериментов, когда разница по данному критерию была обнаружена.

5. Тема стала интересна, так как на практике видели ограничения частотного подхода. Байесовский подход заинтересовал возможностью по-новому посмотреть на АБ тесты и уменьшить эти ограничения.

Спасибо, что подметили. Действительно, на основе данного эксперимента можно утверждать о более высокой чувствительности только в случае биномиального распределения.

Хочу добавить, что помимо рассмотренной чувствительности байесовский подход имеет и другие преимущества:
1) Возможность не фиксировать сроки проведения теста и подводить предварительные итоги.
2) Наличие хорошо интерпретируемых и количественных критериев для принятия решения.
3) Возможность делать выводы по результатам теста при недостаточных для частотного подхода размерах выборки.

Спасибо за обратную связь!
1) Для частотного подхода использовался z-test. Применяла его с учетом того, что биномиальное распределение при больших выборках сходится к нормальному. Оба подхода сравнивались на выборках из биномиального распределения с заданными параметрами (в соответствии с базовой конверсией и эффектом).

2) Корректировку на множественность гипотез не применяла исходя из того, что на одной выборке тестировалась только одна гипотеза.
Из метрик сравнивалась только мощность. Ошибку 1 рода в данном эксперименте посчитать нельзя - изначально в распределения искусственно примешивался эффект (10% / 25% / 50%). Поэтому не могло быть случаев, когда эффекта не было, но он был обнаружен.

Спасибо! Вы правы, это будет хорошим направлением для дальнейшего исследования.

Information

Rating
Does not participate
Works in
Registered
Activity