Pull to refresh
1
0
Дмитрий @Cairn

DA/DS Code Reviewer

Send message

Выше есть по меньшей мере две критичные некорректности, которые стоит исправить. Студенты находят в интернете подобные материалы и транслируют некоторые распространённые заблуждения.

1) "Если данные в A/B-тесте не из нормального распределения, то T-test использовать нельзя."

ЦПТ в помощь, если больше 30-50 элементов в меньшей выборке, то можно.

2) "Манн-Уитни не может проверить ничего, кроме равенства распределений."

Хотя примерно это написано в документации: “The Mann‑Whitney U test is a nonparametric test of the null hypothesis that the distribution underlying sample x is the same as the distribution underlying sample y ”, однако по факту это именно инструмент сравнения средних тенденций выборок. Хотел проверить утверждение о том, что он не показывает неравенство медиан, однако проще показать, что он не показывает равенства распределений:

Код

#Нулевая гипотеза -- средние двух выборок равны

#Альтернативная -- средние отличаются

alpha = 0.05 group_a = [0]*10 + [1]*20 + [2]*24 + [3]*1 + [4]*16 + [5]*20 + [6]*10 group_b = [2]*9 + [3]*91 + [4]*1

fig, ax = plt.subplots() ax.hist(group_a , label="A",bins=np.arange(0,7,.5),align='left') ax.hist(group_b , label="B", color="green",bins=np.arange(0,7,.5),align='left') plt.legend()

results = st.mannwhitneyu( gropup_a, gropup_b)

print('p-значение:', results.pvalue)

if (results.pvalue < alpha): print("Отвергаем нулевую гипотезу") else: print("Не получилось отвергнуть нулевую гипотезу")

Люди читают ваше плохо сформулированное "к распределению, отличному от нормального, нельзя применять параметрические критерии анализа, вроде Стьюдента" и думают, что речь идёт про распределение самих выборок, даже если они большие. Хотя для t-критерия важно нормальное распределение выборочных средних.

Vsevo10d, исправьте, пожалуйста.

Миф о том, что для теста Стьюдента нужно нормальное распределение запустили медики, у которых выборки мелкие и которым это действительно важно. Если у вас в самой мелкой выборке больше 50 элементов, то нормальность распределения внутри неё уже не так важна.

Скорее у них просто много помошников, с которыми очень утомляет бороться 24/7, потому что они на зарплате, а ты — нет. Но Википедия − не орудие рекламы, так считает 92,8% озаботившихся поставить себе соответствующий юзербокс.

Information

Rating
Does not participate
Works in
Registered
Activity