Волшебная палочка аналитика — калькулятор Эвана Миллера / Хабр

Добрый день, дорогие любители аналитики!

А/В тестирование - это инструмент, который позволяет с помощью экспериментов увеличить прибыль компании, привлечь новых пользователей и выбрать наиболее эффективный канал рекламы.

Вы сформулировали гипотезу, определились как оцените результаты и теперь нужно правильно определить размер выборки.

Рассмотрим полезный инструмент для А/В тестирования — калькулятор Эвана Миллера.

Данный калькулятор помогает определить выборку, то есть количество пользователей, кликов или других элементов, участвующих в эксперименте.

Определение правильного размера выборки значительно влияет на результат А/В тестирования, так как недостаточный объем выборки приведет к высокой вариативности, то есть мы не достигнем статистически значимого результата. А при очень большой выборке мы потратим лишнее время, ресурсы, что тоже в условиях динамичной жизни будет неэффективно.

1. Первым шагом при расчете нам необходимо ввести Baseline conversion rate (базовый коэффициент конверсии). Это наш текущий показатель конверсии, на который мы хотим повлиять.

Например, мы запустили рассылку на 500 000 пользователей, а прочитали 280 000 клиентов, следовательно, для получения % текущей конверсии мы должны 280 000 разделить на 500 000 и получаем 0,56, то есть 56 %.

2. Второе – вводим Minimum Detectable Effect (Минимальный обнаруживаемый эффект). Данный показатель характеризует результат, который мы планируем достичь, исходя из целей компании, например: повысить конверсию на 3%.

Справа изображен диапазон (серый график). Серый промежуток на графике в пределах 57,68 % включительно и более покажет, что, если результат эксперимента будет как раз в этом диапазоне, то гипотеза А/В теста верна.

3. Третьим шагом выбираем единицы: абсолютные (absolute), штуки или относительные в процентах (relative). В абсолютных значениях результат проще интерпретировать.

Какое выбрать, зависит от типа исследования.

Если переменная измеряется в процентах или долях, то расчет размера выборки часто проводится в относительных значениях. Мы измеряли уровень конверсии, поэтому выбирали относительные значения.

Абсолютные значения стоит использовать, если вы можете точно определить, какое абсолютное изменение имеет практическое значение.

Установление уровня мощности и стат значимости

4. Четвертым шагом является установление :

Статистической достоверности / статистической мощности (Statistical power 1−β). Показатель в % оценивает общую надежность результатов и вероятность обнаружить реальный эффект, если он существует. Максимально возможная достоверность — 95%.

Чем выше статистическая достоверность, тем больше будет выборка и, соответственно, дольше будет тест и больше будет бюджет. Если в контексте задач компании и бюджета мы готовы принимать решения на уровне статистической достоверности в 80% (стандартное значение) в калькуляторе, то этого будет достаточно.

Уточним, Бета (β) — это вероятность ошибки второго рода, то есть вероятность не обнаружить настоящий эффект, когда он действительно есть (ложное отрицание).

5. Significance level α - показатель уровня статистической значимости α. Этот показатель в % указывает на ошибку первого рода ( вероятность обнаружить разницу, которой на самом деле нет). Чем ниже это значение, тем меньше вероятность того, что результаты эксперимента будут случайны.

После выставления всех параметров калькулятор выдаст ответ сколько нужно наблюдений для каждой из групп А и Б для получения статистически значимого результата.

Например, если средняя конверсия составляет 56% и мы хотим повысить её на 3%, допуская вероятность выявления эффекта в 80 случаев из 100 и в 5% случаев ошибочное подтверждение теории о повышении конверсии. То нам понадобится по 13719 пользователей.

На всякий случай стоит ещё добавить 20% от рекомендованного числа, т.е взять примерно 16 463 для каждой выборки. При этом трафик должен распределяться поровну, чему может помочь использование специальных сервисов.

Осталось посчитать длительность проведения эксперимента. Для этого делим полученный размер выборки 16 463 на среднее количество посетителей в день и округляем до целого числа в большую сторону.

Для сравнения приведу пример: если мы установим стат значимость в размере 90 %, то наша выборка значительно увеличится:

Результат при увеличении стат мощности с 80 до 90 %

Мы получаем результат 18 372 пользователя.

Также можем посчитать бюджет на планируемый период теста: умножаем размер выборки на стоимость клика .

Далее составляем план эксперимента и проводим остальные шаги алгоритма проведения А/В тестирования.

Вывод

Калькулятор Эвана Миллера значительно упрощает процесс расчета выборки для А/В тестирования.