
5 ошибок в А/Б-тестах, которые убивают валидность результатов!
Встречай коллаб от Вовы Сыропятова, антифрод-аналитика Garage Eight, и Юрия Борзило, автора телеграм-канала «Борзило». Вместе они собрали типичные ошибки, которые искажают результаты даже самого перспективного теста. Текстом описали их внизу, а формат в удобных карточках с визуализациями можно забрать у нас в канале.
Ошибка №1: Оценка значимости эффекта «на глаз»
На глаз сложно отличить реальный эффект от случайного колебания метрики.
> Непонятно, это значимое отличие или нет.
> Можем выкатить фичу с отрицательным эффектом.
> Манипуляция итогами эксперимента.
> Будем думать, что наши теории верны, а на деле — нет.
Чтобы отличить случайный эффект от реального, нужно использовать статистический подход и стат критерии для оценки.
Юрий Борзило, автор канала «Борзило»
Рекомендую фиксировать порог значимости до начала эксперимента — это защищает от соблазна подогнать интерпретацию под желаемый результат.
Вова Сыропятов, аналитик Garage Eight
Ошибка №2: Ранняя остановка A/B тестов (Peeking)
Пример ошибки:
1) Каждый день проверяем, есть ли стат значимая разница между вариантами, и, когда есть, сразу стопаем.
2) Собрали нужный объем выборки, но нет стат значимости, — продолжаем держать.
Почему это ошибка?
Мы будем часто находить значимую разницу метрик между вариантами, где этой разницы нет.
Чтобы избежать ошибки, рекомендую строго фиксировать объем выборки и длительность А/Б-теста, принимать решение только 1 раз по окончании А/Б-теста. А также использовать методы последовательного тестирования.
Юрий Борзило, автор канала «Борзило»
Полезно визуализировать динамику метрики во времени — это помогает отличить стабильный эффект от временного всплеска в моменте теста.
Вова Сыропятов, аналитик Garage Eight
Ошибка №3: Усреднение без учета сегментов
Будем часто упускать хорошие решения, так как не найдем отличий в А/Б.
Важно определять значимые сегменты и находить сегменты, в которых поведение и метрики сильно отличаются. А также запускать и оценивать А/Б-тесты по ключевым сегментам.
Юрий Борзило, автор канала «Борзило»
Положительный эффект в одном сегменте может компенсироваться отрицательным в другом, и в среднем мы увидим ноль — хотя решение рабочее.
Вова Сыропятов, аналитик Garage Eight
Ошибка №4: Игнорирование сезонности
Не учитываем день недели, праздники или сезонные колебания при запуске и оценке теста.
Полезно сначала посмотреть на историческую сезонность метрики за последние месяцы — это поможет выбрать правильное время для теста.
Вова Сыропятов, аналитик Garage Eight
Можно попасть в ситуацию, когда мы не успеем собрать нужное число пользователей в А/Б-тест, если мы не учли меняющуюся сезонность. Из-за этого срок А/Б-теста увеличится, а релиз придется отложить.
Юрий Борзило, автор канала «Борзило»
Ошибка №5: SRM (Sample Ratio Mismatch)
Соотношение пользователей между группами сильно отличается от запланированного.
Может быть технический баг в системе экспериментов. Одна из групп может содержать специфичных пользователей. Невозможно доверять результатам теста. Придется останавливать и перезапускать эксперимент.
Рекомендую автоматизировать проверку SRM — встроить алерт, который срабатывает при отклонении соотношения групп более чем на 1–2% от запланированного. Это позволит быстро выявить и исправить проблему.
Вова Сыропятов, аналитик Garage Eight
Перед тем как запускать на А/Б-платформе реальные эксперименты, стоит проверить ее и убедиться, что она корректно формирует группы.
Чтобы оценить, соответствует ли фактическое деление трафика на группы и плановое, можно использовать критерий хи-2.
Юрий Борзило, автор канала «Борзило»







