Обновить
Garage Eight
Международная продуктовая IT-компания

5 ошибок в А/Б-тестах, которые убивают валидность результатов!

Встречай коллаб от Вовы Сыропятова, антифрод-аналитика Garage Eight, и Юрия Борзило, автора телеграм-канала «Борзило». Вместе они собрали типичные ошибки, которые искажают результаты даже самого перспективного теста. Текстом описали их внизу, а формат в удобных карточках с визуализациями можно забрать у нас в канале.

Ошибка №1: Оценка значимости эффекта «на глаз»

На глаз сложно отличить реальный эффект от случайного колебания метрики.
> Непонятно, это значимое отличие или нет.
> Можем выкатить фичу с отрицательным эффектом.
> Манипуляция итогами эксперимента.
> Будем думать, что наши теории верны, а на деле — нет.

Чтобы отличить случайный эффект от реального, нужно использовать статистический подход и стат критерии для оценки.
Юрий Борзило, автор канала «Борзило»

Рекомендую фиксировать порог значимости до начала эксперимента — это защищает от соблазна подогнать интерпретацию под желаемый результат.
Вова Сыропятов, аналитик Garage Eight

Ошибка №2: Ранняя остановка A/B тестов (Peeking)

Пример ошибки:
1) Каждый день проверяем, есть ли стат значимая разница между вариантами, и, когда есть, сразу стопаем.
2) Собрали нужный о��ъем выборки, но нет стат значимости, — продолжаем держать.

Почему это ошибка?
Мы будем часто находить значимую разницу метрик между вариантами, где этой разницы нет.

Чтобы избежать ошибки, рекомендую строго фиксировать объем выборки и длительность А/Б-теста, принимать решение только 1 раз по окончании А/Б-теста. А также использовать методы последовательного тестирования.
Юрий Борзило, автор канала «Борзило»

Полезно визуализировать динамику метрики во времени — это помогает отличить стабильный эффект от временного всплеска в моменте теста.
Вова Сыропятов, аналитик Garage Eight

Ошибка №3: Усреднение без учета сегментов

Будем часто упускать хорошие решения, так как не найдем отличий в А/Б.

Важно определять значимые сегменты и находить сегменты, в которых поведение и метрики сильно отличаются. А также запускать и оценивать А/Б-тесты по ключевым сегментам.
Юрий Борзило, автор канала «Борзило»

Положительный эффект в одном сегменте может компенсироваться отрицательным в другом, и в среднем мы увидим ноль — хотя решение рабочее.
Вова Сыропятов, аналитик Garage Eight

Ошибка №4: Игнорирование сезонности

Не учитываем день недели, праздники или сезонные колебания при запуске и оценке теста.

Полезно сначала посмотреть на историческую сезонность метрики за последние месяцы — это поможет выбрать правильное время для теста.
Вова Сыропятов, аналитик Garage Eight

Можно попасть в ситуацию, когда мы не успеем собрать нужное число пользователей в А/Б-тест, если мы не учли меняющуюся сезонность. Из-за этого срок А/Б-теста увеличится, а релиз придется отложить.
Юрий Борзило, автор канала «Борзило»

Ошибка №5: SRM (Sample Ratio Mismatch)

Соотношение пользователей между группами сильно отличается от запланированного.

Может быть технический баг в системе экспериментов. Одна из групп может содержать специфичных пользователей. Невозможно доверять результатам теста. Придется останавливать и перезапускать эксперимент.

Рекомендую автоматизировать проверку SRM — встроить алерт, который срабатывает при отклонении соотношения групп более чем на 1–2% от запланированного. Это позволит быстро выявить и исправить проблему.
Вова Сыропятов, аналитик Garage Eight

Перед тем как запускать на А/Б-платформе реальные эксперименты, стоит проверить ее и убедиться, что она корректно формирует группы.

Чтобы оценить, соответствует ли фактическое деление трафика на группы и плановое, можно использовать критерий хи-2.
Юрий Борзило, автор канала «Борзило»

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Публикации

Информация

Сайт
garage-eight.com
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия