Выше есть по меньшей мере две критичные некорректности, которые стоит исправить. Студенты находят в интернете подобные материалы и транслируют некоторые распространённые заблуждения.
1) "Если данные в A/B-тесте не из нормального распределения, то T-test использовать нельзя."
ЦПТ в помощь, если больше 30-50 элементов в меньшей выборке, то можно.
2) "Манн-Уитни не может проверить ничего, кроме равенства распределений."
Хотя примерно это написано в документации: “The Mann‑Whitney U test is a nonparametric test of the null hypothesis that the distribution underlying sample x is the same as the distribution underlying sample y ”, однако по факту это именно инструмент сравнения средних тенденций выборок. Хотел проверить утверждение о том, что он не показывает неравенство медиан, однако проще показать, что он не показывает равенства распределений:
Люди читают ваше плохо сформулированное "к распределению, отличному от нормального, нельзя применять параметрические критерии анализа, вроде Стьюдента" и думают, что речь идёт про распределение самих выборок, даже если они большие. Хотя для t-критерия важно нормальное распределение выборочных средних.
Миф о том, что для теста Стьюдента нужно нормальное распределение запустили медики, у которых выборки мелкие и которым это действительно важно. Если у вас в самой мелкой выборке больше 50 элементов, то нормальность распределения внутри неё уже не так важна.
Скорее у них просто много помошников, с которыми очень утомляет бороться 24/7, потому что они на зарплате, а ты — нет. Но Википедия − не орудие рекламы, так считает 92,8% озаботившихся поставить себе соответствующий юзербокс.
Выше есть по меньшей мере две критичные некорректности, которые стоит исправить. Студенты находят в интернете подобные материалы и транслируют некоторые распространённые заблуждения.
1) "Если данные в A/B-тесте не из нормального распределения, то T-test использовать нельзя."
ЦПТ в помощь, если больше 30-50 элементов в меньшей выборке, то можно.
2) "Манн-Уитни не может проверить ничего, кроме равенства распределений."
Хотя примерно это написано в документации: “The Mann‑Whitney U test is a nonparametric test of the null hypothesis that the distribution underlying sample x is the same as the distribution underlying sample y ”, однако по факту это именно инструмент сравнения средних тенденций выборок. Хотел проверить утверждение о том, что он не показывает неравенство медиан, однако проще показать, что он не показывает равенства распределений:
Код
#Нулевая гипотеза -- средние двух выборок равны
#Альтернативная -- средние отличаются
alpha = 0.05 group_a = [0]*10 + [1]*20 + [2]*24 + [3]*1 + [4]*16 + [5]*20 + [6]*10 group_b = [2]*9 + [3]*91 + [4]*1
fig, ax = plt.subplots() ax.hist(group_a , label="A",bins=np.arange(0,7,.5),align='left') ax.hist(group_b , label="B", color="green",bins=np.arange(0,7,.5),align='left') plt.legend()
results = st.mannwhitneyu( gropup_a, gropup_b)
print('p-значение:', results.pvalue)
if (results.pvalue < alpha): print("Отвергаем нулевую гипотезу") else: print("Не получилось отвергнуть нулевую гипотезу")
Люди читают ваше плохо сформулированное "к распределению, отличному от нормального, нельзя применять параметрические критерии анализа, вроде Стьюдента" и думают, что речь идёт про распределение самих выборок, даже если они большие. Хотя для t-критерия важно нормальное распределение выборочных средних.
Vsevo10d, исправьте, пожалуйста.
Миф о том, что для теста Стьюдента нужно нормальное распределение запустили медики, у которых выборки мелкие и которым это действительно важно. Если у вас в самой мелкой выборке больше 50 элементов, то нормальность распределения внутри неё уже не так важна.
Скорее у них просто много помошников, с которыми очень утомляет бороться 24/7, потому что они на зарплате, а ты — нет. Но Википедия − не орудие рекламы, так считает 92,8% озаботившихся поставить себе соответствующий юзербокс.