Комментарии / Профиль Xapulc / Хабр

Виктор Харламов @Xapulc

Математик и продуктовый аналитик

ПрофильСтатьи1ПостыНовостиКомментарии2

Определяем оптимальный размер групп при множественном А/Б тестировании

Xapulc 12 ноя 2023 в 12:40

Привет. Спасибо за статью. Пару вопросов.

Какую реальную задачу вы решаете при таких тестах? Казалось бы, такого, чтобы на n тестах контроль был одинаковым, практики никогда не бывает. Не и эксперименты чётко параллельно в одни и те же временные рамки должны проводиться. При этом в постановке теста сами B(i) никак друг с другом не сравниваются.
Почему минимизация дисперсии в статистике t-теста само по себе оптимально? Оптимально с точку зрения какой метрики? MDE - это немного переписанная статистика t-теста, к статистической задаче это тоже мало относится. Так что вопрос к тому, почему при таком распределении увеличивается мощность критерия. Хотя вопрос в том, что такое «мощность» в этой модели.

Посмотреть

Байесовский подход к АБ тестированию

Xapulc 30 авг 2023 в 15:45

Спасибо за статью. Несколько комментариев.

"Фреквентисты предполагают: «Допустим, что мир такой. Тогда какова вероятность, что произойдет это событие?». Для них не важны другие гипотетические миры, где такое же событие могло происходить с другой частотой." Это неправда. Именно это и интересует нас при расчёте размера выборки (какого размера нужно взять выборку, чтобы вероятность ошибки II рода при отклонении минимум на MDE была не выше порога).
Выбор метрики будет явно раньше выбора априорного распределения. Кстати, в тексте статьи тоже сначала упоминается метрика, и уже потом априорное распределение.
"К концу 4 недели апостериорные распределения конверсий в группах еще больше «разъехались» друг от друга, а их стандартные отклонения снизились до 0,016–0,017%." Аргументация к стандартным отклонениям - это как раз аргументация частотного метода) Но меня здесь интересует другой вопрос - почему мы много раз проверяем гипотезу без поправок? Фактически мы проверяем гипотезу "H(0): конверсия не выросла на достаточный порог за 4 итерации" против альтернативы "H(1): конверсия хотя бы раз из 4 выросла выше порога". Я говорю об альтернативах и гипотезах, потому что они здесь есть: величина P(p(a) > p(b)) является случайной (потому что она зависит от выборки: P(p(a) > p(b) | x(1), ..., x(n), y(1), ..., y(m)), где x(i) и y(j) - результаты наблюдения (клик или не клик)). И мы отклоняем гипотезу, если P(p(a, 1 неделя) > p(b, 1 неделя) | выборка за 1 неделю) >= порог или ... или P(p(a, 4 неделя) > p(b, 4 неделя) | выборка за 4 недели) >= порог. Это стандартный статистический критерий, просто мы сами не знаем какие вероятности ошибок I и II родов.
"Принятие решения на основе байесовских метрик довольно субъективно." Кажется, это из-за того, что мы не понимаем алгоритм статистической проверки гипотез и вероятности ошибок I и II рода. То есть в стандартном подходе у нас есть понимание, что при неизменении конверсии вероятность ошибки I рода <= 5%, потому что статистический критерий грамотно кем-то собран, а мы отклоняем гипотезу по алгоритму p-value <= 5%.
"Вид распределения может быть любым, но с некоторыми распределениями проще применять теорему Байеса." Интересно посмотреть какие распределения лучше с точки вероятностей ошибок I и II рода. Кажется, для бернулли я только бета-распределение и видел. У нас нет строгих предпосылок утверждать, что бета-распределение лучше, мы лишь можем доказать, что оно логично (п.н. при разности конверсий P(p(a) > p(b)) -> 1 при росте объёма выборки).
"Запускаем тест стандартным образом: разделяем выборку на однородные группы" Почему? Можно же не 50/50.
" Для байесовского подхода важно видеть стабильность результатов в динамике." Если мы говорим о теории, то почему? И какое определение "стабильности"?
В таблице сравнения "Какой риск контролируем" Там не одно и то же написано? Ну и при фиксированном размере выборки вероятность ошибка II рода тоже контролируется в первом подходе.
В таблице сравнения "Информация о прошлом поведении метрик" Смотря какая задача. Если раскатить на всех и посмотреть что будет, тогда и в первом случае не нужно. Если хочется понимать чего ожидать, то и в байесовском нужно.
В таблице сравнения "Предварительная остановка теста" Есть область статистики "последовательный анализ". Там рассказывается как останавливать тест. Останавливать по правилу "p-value <= 5%", конечно, не стоит, с этим согласен.
"Чтобы оценить чувствительность подходов, я провела эксперимент: сравнила мощности байесовского и частотного подходов для разных размеров выборок и различий в группах." А что будет при гипотезе (отсутствия изменения)? Не сместили ли мы вероятность ошибки I рода в вероятность ошибки II рода? То, что порог для вероятности "95%", не говорит о вероятности ошибки I рода.
"Провели 10 000 итераций: рандомно брали из каждого распределения по 1000 наблюдений, для каждой итерации подводили итог по байесовскому и частотному подходу." Кажется, это некорректно. Здесь приводится суть байесовского подхода как штука, которой можно (и нужно) подглядывать. Если подглядываний не было, то по теореме Неймана-Пирсона ничего лучше биномиального точного критерия Фишера (асимптотически эквивалентного используемому z-тесту) нет. Поэтому мы явно пожертвовали вероятностью ошибки I рода.

P.S. Сори за душнилово, но вопросы валидны, а ответов нет. Помимо пары-тройки комментариев всё остальное - вопросы к использованию байесовского подхода в A/B тестировании, которые будут актуальны не в одной статье. Классно, что в статье есть моделирование, ибо это помогает разобраться в происходящем, а не просто верить гайдам. Однако, так как не было моделирования вероятности ошибки I рода, то и на результаты моделирования смотреть и делать выводы рано.

Посмотреть