Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.
Описание применения тех или иных статистических тестов в данной статье носит абстрактный характер, хотя оно дано достаточно подробно, чтобы можно было использовать это описание как шаблон уже для конкретных случаев. Если всё же возникнет необходимость в хорошем, наглядном примере применения того или иного теста рекомендую книгу "100 Statistical Tests 3rd Edition" автора Gopal K Kanji. Также рекомендую ознакомиться с хорошими вводными статьями по статистическим тестам "Как выбрать правильный стат тест для разных метрик" и "Статистические тесты и проверка гипотез в R". О том, как выглядит A/B тест на практике, с какими основными этапами и величинами сталкиваешься, очень хорошо описано в статье "База: айсберг A/B-тестов".
Базовые распределения вероятностей
В данной статье будут рассмотрены четыре основных статистических критерия, связанных с четырьмя основными типами распределений вероятностей:
z-статистика: стандартизированное значение среднего выборки из совокупности при известном размере выборки , среднем совокупности и стандартном отклонении совокупности . Величины -статистики для разных выборочных средних принадлежат Нормальному (Стандартному) Распределению. То же самое справедливо для пропорции выборки и пропорции совокупности .
t-статистика: стандартизированное значение среднего выборки из совокупности при известном размере выборки , среднем совокупности и стандартном отклонении выборки . Величины t-статистики для разных выборочных средних принадлежат Распределению Стьюдента (t-Распределению).
Критерий хи-квадрат: представляет собой сумму квадратов случайных величин из Стандартного (Нормального) Распределения. Число слагаемых в сумме будет являться степенью свободы . Величины -статистики для разных принадлежат Распределению Хи-квадрат.
F-статистика: представляет собой отношение двух случайных величин и из распределения Хи-квадрат, делённых на свои собственные степени свободы и . Величины F-статистики для разных , , и принадлежат Распределению Фишера.
Доверительные интервалы
Также речь пойдёт о таком понятии как доверительный интервал: "Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью". Общий вид для большинства формул доверительных интервалов следющий:
где CI - это Confidence Interval или Доверительный интервал, c - это некоторое центральное значение (обычно одна из основных выборочных метрик, таких как, среднее выборки или пропорция выборки ) и MOE - это Margin of Error или Предельная ошибка выборки.
Список статистических тестов
Z-тест двухвыборочный для разницы средних значений двух совокупностей
Z-тест двухвыборочный для разницы пропорций двух совокупностей
-тест одновыборочный для стандартного отклонения совокупности
F-тест двухвыборочный для отношения дисперсий двух совокупностей
F-тест для оценки разброса средних у k совокупностей по k выборкам - дисперсионный анализ (ANOVA)
1. Z-тест одновыборочный для среднего значения совокупности
Формула статистики: (см. Нормальное Распределение)
Описание применения: допустим в процессе эксперимента получена одна выборка размером . Также расчитано среднее значение выборки , стандартное отклонение выборки , и из предыдущих наблюдений известно стандартное отклонение совокупности . Для того, чтобы получить интервал относительно , в котором с вероятностью лежит среднее значение всей совокупности , из которой взята выборка, воспользуемся следующей формулой:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых среднее сопокупности ошибочно не попало в доверительный интервал.
Эксперименты: Проведём 1000 экспериментов с одной выборкой разного размера . Доверительный интервал будет показан голубым цветом и будет становиться точнее (сужаться) по мере увелечения размера выборки, т. к. будет уменьшаться значение MOE:
Размер выборки :
Из 1000 тестов 44 (4.40 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.40 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размер выборки :
Из 1000 тестов 49 (4.90 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.90 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размер выборки :
Из 1000 тестов 54 (5.40 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.40 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
2. Z-тест двухвыборочный для разницы средних значений двух совокупностей
Формула статистики:
Описание применения: допустим в процессе эксперимента получено две выборки размером и из двух совокупностей. Также расчитано среднее значение выборок и , их стандартное отклонение и , и из предыдущих наблюдений известно стандартное отклонение двух совокупностей и . Для того, чтобы получить интервал относительно разницы средних двух выборок , в котором с вероятностью лежит разница средних значений двух совокупностей , из которых взяты выборки, воспользуемся следующей формулой:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых разница средних значений сопокупностей ошибочно не попала в доверительный интервал.
Эксперименты: Проведём 1000 экспериментов с двумя выборками разного размера и . Доверительный интервал будет показан голубым цветом и будет становиться точнее (сужаться) по мере увелечения размеров выборок, т. к. будет уменьшаться значение MOE:
2.1. Моделирование 1000 A/A-тестов (μ1 = μ2 = 10, σ1 = σ2 = 4)
Размеры выборок , :
Из 1000 тестов 44 (4.40 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.40 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 48 (4.80 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.80 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 38 (3.80 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 3.80 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
2.2. Моделирование 1000 A/B-тестов (μ1 = 15, μ2 = 10, σ1 = 2, σ2 = 4)
Размеры выборок , :
Из 1000 тестов 43 (4.30 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.30 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 39 (3.90 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 3.90 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 63 (6.30 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 6.30 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
3. Z-тест одновыборочный для пропорции одной совокупности
Формула статистики:
Описание применения: допустим в процессе эксперимента получена одна выборка размером . Также расчитана пропорция выборки . Для того, чтобы получить интервал относительно пропорции выборки , в котором с вероятностью лежит пропорция всей совокупности , воспользуемся следующей формулой:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых пропорция сопокупности ошибочно не попала в доверительный интервал.
Более развёрнутый пример: Допустим ситуацию, когда реклама была показана 10 000 пользователей и из них перешли по ней (кликнули). Невозможно проанализировать данные по переходам всех пользователей, и, чтобы установить приблизительный процент переходов (кликов) проводятся эксперименты со случайными группами пользователей (выборками) размером 40, 200 и 1000. Подобные статистические эксперименты по выяснению процента пользователей, перешедших по рекламе, можно смоделировать с помощью нескольких биномиальных распределений для выборок размером 40, 200, 1000, и популяции размером 10 000. Это обусловленно тем, что данный процесс является дихотомическим, т. к. есть всего два состояния: "переход по рекламе" и "игнорирование рекламы". Чем больше размер выборки, тем более точным является доверительный интервал (показан голубым цветом), т. к. будет уменьшаться значение MOE:
Размер выборки :
Из 1000 тестов 56 (5.60 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.60 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размер выборки :
Из 1000 тестов 53 (5.30 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.30 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размер выборки :
Из 1000 тестов 55 (5.50 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.50 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
4. Z-тест двухвыборочный для разницы пропорций двух совокупностей
Формула статистики:
Описание применения: допустим в процессе эксперимента получено две выборки размером и . Также расчитаны пропорции выборок и . Для того, чтобы получить интервал относительно разницы пропорций выборок , в котором с вероятностью лежит разница между пропорциями двух совокупностей , воспользуемся следующей формулой:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых разница пропорций сопокупностей ошибочно не попала в доверительный интервал.
Эксперименты: Проведём 1000 экспериментов с двумя выборками разного размера и . Доверительный интервал будет показан голубым цветом и будет становиться точнее (сужаться) по мере увелечения размеров выборок, т. к. будет уменьшаться значение MOE:
Размеры выборок , :
Из 1000 тестов 61 (6.10 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 6.10 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 55 (5.50 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.50 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 55 (5.50 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.50 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
5. T-тест одновыборочный для среднего значения совокупности
Формула статистики: (см. Распределение Стьюдента)
Описание применения: допустим в процессе эксперимента получена одна выборка размером . Также расчитано среднее значение выборки , стандартное отклонение . Для того, чтобы получить интервал относительно , в котором с вероятностью лежит среднее значение всей совокупности , из которой взята выборка, воспользуемся следующей формулой:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых среднее сопокупности ошибочно не попало в доверительный интервал, и - число степеней свободы для Распределения Стьдента (t-Распределения) случайной величины.
Эксперименты: Проведём 1000 экспериментов с одной выборкой разного размера . Доверительный интервал будет показан голубым цветом и будет становиться точнее (сужаться) по мере увелечения размера выборки, т. к. будет уменьшаться значение MOE:
Размер выборки :
Из 1000 тестов 62 (6.20 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 6.20 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размер выборки :
Из 1000 тестов 55 (5.50 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.50 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размер выборки :
Из 1000 тестов 47 (4.70 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.70 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
6. T-тест двухвыборочный для разницы средних значений двух совокупностей (дисперсии совокупностей неизвестны, но равны)
Формула статистики:
Описание применения: допустим в процессе эксперимента получено две выборки размером и из двух совокупностей. Расчитано среднее значение выборок и , их стандартное отклонение и . Также известно, что дисперсии двух совокупностей равны. Для того, чтобы получить интервал относительно разницы средних двух выборок , в котором с вероятностью лежит разница средних значений двух совокупностей , из которых взяты выборки, воспользуемся следующей формулой:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых разница средних значений сопокупности ошибочно не попало в доверительный интервал, и - число степеней свободы для Распределения Стьдента (t-Распределения) случайной величины.
Эксперименты: Проведём 1000 экспериментов с двумя выборками разного размера и . Доверительный интервал будет показан голубым цветом и будет становиться точнее (сужаться) по мере увелечения размеров выборок, т. к. будет уменьшаться значение MOE:
6.1. Моделирование 1000 A/A-тестов (μ1 = μ2 = 10, σ1 = σ2 = 3)
Размеры выборок , :
Из 1000 тестов 69 (6.90 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 6.90 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 70 (7.00 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 7.00 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 44 (4.40 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.40 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
6.2. Моделирование 1000 A/B-тестов (μ1 = 12, μ2 = 10, σ1 = σ2 = 3)
Размеры выборок , :
Из 1000 тестов 77 (7.70 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 7.70 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 53 (5.30 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.30 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 59 (5.90 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.90 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
7. T-тест двухвыборочный для разницы средних значений двух совокупностей (дисперсии совокупностей неизвестны и не равны)
Формула статистики:
Описание применения: допустим в процессе эксперимента получено две выборки размером и из двух совокупностей. Расчитано среднее значение выборок и , их стандартное отклонение и . Также известно, что дисперсии двух совокупностей не равны. Для того, чтобы получить интервал относительно разницы средних двух выборок , в котором с вероятностью лежит разница средних значений двух совокупностей , из которых взяты выборки, воспользуемся следующей формулой:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых разница средних значений сопокупности ошибочно не попало в доверительный интервал.
Эксперименты: Проведём 1000 экспериментов с двумя выборками разного размера и . Доверительный интервал будет показан голубым цветом и будет становиться точнее (сужаться) по мере увелечения размеров выборок, т. к. будет уменьшаться значение MOE:
7.1. Моделирование 1000 A/B-тестов (μ1 = μ2 = 10, σ1 = 2, σ2 = 4)
Размеры выборок , :
Из 1000 тестов 54 (5.40 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.40 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 51 (5.10 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.10 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 50 (5.00 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.00 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
7.2. Моделирование 1000 A/B-тестов (μ1 = 20, μ2 = 15, σ1 = 2, σ2 = 4)
Размеры выборок , :
Из 1000 тестов 53 (5.30 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.30 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 52 (5.20 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.20 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
Размеры выборок , :
Из 1000 тестов 56 (5.60 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.60 % случаев, что было заложено вначале эксперимента с помощью и -статистике.
8. Хи-квадрат-тест одновыборочный для стандартного отклонения совокупности
Формула статистики: (см. Распределение Хи-квадрат)
Описание применения: допустим в процессе эксперимента получена одна выборка размером и расчитано стандартное отклонение выборки . Для того, чтобы получить интервал относительно , в котором с вероятностью лежит стандартное отклонение всей совокупности , из которой взята выборка, воспользуемся следующей формулой:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых стандартное отклонение совокупности ошибочно не попало в доверительный интервал.
Эксперименты: Проведём 1000 экспериментов с одной выборкой разного размера . Доверительный интервал будет показан зелёным цветом и будет становиться точнее (сужаться) по мере увелечения размера выборки. Это связано в основном с тем, что значения и будут увеличиваться, при увеличении числа степеней свободы :
Размер выборки :
Из 1000 тестов 42 (4.20 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.20 % случаев, что было заложено вначале эксперимента с помощью , -статистике и -статистике.
Размер выборки :
Из 1000 тестов 48 (4.80 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 4.80 % случаев, что было заложено вначале эксперимента с помощью , -статистике и -статистике.
Размер выборки :
Из 1000 тестов 50 (5.00 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.00 % случаев, что было заложено вначале эксперимента с помощью , -статистике и -статистике.
9. F-тест двухвыборочный для отношения дисперсий двух совокупностей
Формула статистики: (см. Распределение Фишера)
Описание применения: допустим в процессе эксперимента получено две выборки размером и из двух совокупностей и расчитаны их стандартные отклонения и . Доверительный интервал, в котором с вероятностью будет находиться отношение для совокупностей с незначительной разницей в дисперсиях и будет следующим:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых отношение ошибочно не попало в доверительный интервал при равных дисперсиях совокупностей и .
Эксперименты: Проведём 1000 экспериментов с двумя выборками разного размера и . Стандартное отклонение будет показано голубым цветом, а - зелёным цветом, по мере увелечения размеров выборок вариабельность и будет снижаться, а, следовательно, отношение будет находиться всё ближе к :
Размеры выборок , :
Из 1000 тестов 64 (6.40 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 6.40 % случаев, что было заложено вначале эксперимента с помощью , -статистике и -статистике.
Размеры выборок , :
Из 1000 тестов 52 (5.20 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.20 % случаев, что было заложено вначале эксперимента с помощью , -статистике и -статистике.
Размеры выборок , :
Из 1000 тестов 53 (5.30 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.30 % случаев, что было заложено вначале эксперимента с помощью , -статистике и -статистике.
10. F-тест для оценки разброса средних у k совокупностей по k выборкам - дисперсионный анализ (ANOVA)
Формула статистики: (см. Распределение Фишера)
Описание применения: допустим в процессе эксперимента получено выборок размером из совокупностей. Необходимо рассчитать внутригрупповую дисперсию , а также дисперсию средних значений выборок относительно общего среднего значения величин всех выборок . Доверительный интервал, в котором с вероятностью будет находиться отношение для совокупностей с незначительной разницей в средних значениях будет следующим:
где - это вероятность ошибки , т. е. процент предельных выборок, для которых отношение ошибочно не попало в доверительный интервал при равных средних совокупностей .
Эксперименты: Проведём 1000 экспериментов с четырьмя выборками разного размера , , и . Для каждого набора из 4х выборок будет расчитана внутригрупповая дисперсия и, соответственно, стандартное отклонение , которое будет отображаться менее ярко рядом с обычным стандартным отклонением для каждой выборки (голубой, зелёный, фиолетовый и жёлтый цвета) относительно средних , , и , а также внешнегрупповая дисперсия и стандартное отклонение , которое будет отображаться красной решёткой относительно общего среднего значения всех выборок (черная пунктирная линия):
10.1. Моделирование 1000 A/B/C/D-тестов (μ1=μ2=μ3=μ4)
Размеры выборок , , , :
Из 1000 тестов 72 (7.20 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 7.20 % случаев, что было заложено вначале эксперимента с помощью , -статистике и -статистике.
Размеры выборок , , , :
Из 1000 тестов 52 (5.20 %) ошибочно показали, что находится за пределами доверительного интервала, т. е. ошибка I рода произошла в 5.20 % случаев, что было заложено вначале эксперимента с помощью , -статистике и -статистике.
10.2. Моделирование 1000 A/B/C/D-тестов (μ1≠μ2≠μ3≠μ4)
Размеры выборок , , , :
В данных тестах всегда показывает критическое значение, выходящее за интервал , т. к. средние значения выборок существенно различаются, поэтому альтернативная гипотеза всегда верна для всех 1000 тестов.
Заключение
Безусловно, одним из главных наблюдений, которое можно сделать - это то, что во всех случаях при увеличении размера выборки доверительный интервал сужается (уменьшается MOE), т. е. мы получаем более точный прогноз того, где находится неизвестный нам параметр (например, среднее значение или дисперсия совокупности). Также при увеличении размера выборки снижается вариабельность дисперсии выборки , она становится всё ближе по значению к дисперсии всей совокупности .
Следующим шагом в изучении может стать более детальное знакомство с планированием и конфигурацией настоящих А/B экспериментов, и способами их оптимизации, которые используются в реальных кейсах, например, как описано в следующих статьях:
"Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 1"
"Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 2"
Методы, подобные статистическому эксперименту, формализуют и нормируют процесс принятия решений для бизнеса, и позволяют опираться на факты и расчёты вместо личного ощущения или интуиции, которые могут оказаться неверными в масштабах больших и сложных популяций. Они дают фундамент для развития других прикладных областей, например, теории принятия решений, которая используется в области менеджмента и психологии, или теории оценивания.