Новое повсюду или статистические тесты эквивалентности / Habr

Классические статистические тесты – это, как правило, тесты, проверяющие гипотезу о равенстве (медианы определенному значению, средних в двух независимых группах, дисперсии во многих зависимых группах, коэффициента корреляции нулю и т.д.).

Однако уже более как 30 лет существует альтернативный подход, разработанный в ходе исследований по психологии – тесты эквивалентности. Он основан на идее, например, что некоторое отличающееся от нуля значение корреляции все равно может считаться незначимым для конкретной решаемой задачи.

В R за реализацию тестов подобного типа отвечает пакет negligible. Рассмотрим поэтапно разные практические задачи, добавим к каждой щепотку теории и расчетов.

1) Тесты корреляции на основе эквивалентности (для нормально распределенных величин)

Подробное объяснение в статье: Goertzen, J. R., & Cribbie, R. A. (2010). Detecting a lack of association. British Journal of Mathematical and Statistical Psychology, 63(3), 527–537

Вкратце: мы проверяем сразу две нулевые гипотезы в виде –r* < r и r > r*, где r* - установленная нами граница незначимости коэффициента корреляции, r – коэффициент корреляции по нашим данным.

Практика: возьмем базу данных CASchools и проверим гипотезу о том, что коэффициент корреляции между результатами тестов по математике и чтению находится в диапазоне незначимости [-0,2 ; 0.2]

library(AER)
library(negligible)
library(tidyverse)
data(CASchools)
CASchools <- as.data.frame(CASchools)
neg.cor(v1 = CASchools$math, v2 = CASchools$read, eiU = .2, eiL = -.2)

Границы диапазона незначимости устанавливаются пользователем, исходя из задачи, и могут быть различны. Алгоритм выводит:

- величину коэффициента корреляции: 0.9229;

- 95%-ый доверительный интервал для него, посчитанный на основе бустрэпа;

- вывод по нулевой гипотезе (в нашем случае гипотеза о незначимости коэффициента корреляции отвергается).

2) Тест эквивалентности пропорций (тест 2 на 2)

Практика: возьмем базу данных CASchools и проверим гипотезу об эквивалентности пропорций в таблице для двух переменных – применяемой системе оценок (КК-06 или КК-08) и превышении медианного значения баллов по математике

v1<-as.vector(CASchools$math>median(CASchools$math))
v2<-as.vector(CASchools$grades)
tab<-table(v1,v2)
tab
neg.cat(tab=tab,alpha=.05,eiU=0.5,nbootpd=50)

Алгоритм выводит:

- значение классического критерия Крамера и его 95%-ый доверительный интервал;

- сравнение верхнего значения коэффициента Крамера и заданного пользователем значения незначимости;

- вывод по нулевой гипотезе (в нашем случае гипотеза о незначимости разницы в пропорциях принимается).

3) Тест на наличие влияния третьей переменной на корреляцию между двумя другими.

Подробнее в статье на http://doi.org/10.20982/tqmp.16.4.p424

Вкратце: строятся две модели связи между переменными:

Необходимо понять, существует ли связь между X и Y, или она вся объясняется тем, что обе эти переменные коррелируют с какой-то другой переменной М.

Практика: возьмем базу данных CASchools и проверим гипотезу о том, что коэффициент корреляции между результатами тестов по математике и чтению объясняется количеством компьютеров.

neg.esm(X = math,Y = read,M = computer,eil = -.15,eiu = .15,
        nboot =  50,data = CASchools)

Итоговый вывод по двум примененным процедурам: нулевая гипотеза о том, что прямое влияние переменных (разница между общим и косвенным эффектом) не пренебрежимо мало, не может быть отвергнута. То есть, величина прямого влияния переменных не входит в заданный по умолчанию интервал [-0.15 ; 0.15].

4) Тест эквивалентности дисперсий в независимых выборках.

Подробнее в статье на https://doi.org/10.1080/00220973.2017.1301356

Практика: возьмем базу данных CASchools и проверим гипотезу о том, что дисперсия оценок по математике среди студентов, оцениваемых по-разному, различается незначительно

neg.indvars(dv = CASchools$math, iv = CASchools$grades, eps = 0.25)

Итоговый вывод включает:

- величины групповой дисперсии, стандартного отклонения и абсолютного медианного отклонения

- рассчитанное значение отношения дисперсий

- тестовую статистику и выводы по ней (в нашем случае гипотеза о том, что величина различия между дисперсиями населения выходит за пределы интервала ��квивалентности, может быть отвергнута).

Существенной сложностью широкого применения данного теста является оторванность от конкретных значений конкретного показателя величины eps, определяющей «жесткость» теста. Есть только рекомендация в одной статье использовать значение 0.25, если хотите провести консервативный тест, и значение 0.5 – если либеральный.

5) Тест на незначимость разницы средних значений в зависимых группах

Практика: возьмем датафрейм PSID7682 и проверим гипотезу о эквивалентности заработной платы в 1976 и 1982 годах

data("PSID7682")
date <- rbind(PSID7682[PSID7682$year==1976,c(13,12,14)],PSID7682[PSID7682$year==1982,c(13,12,14)])
neg.paired(outcome = date$wage, group = date$year, ID = date$id,eil=-10,eiu=10)

И��оговый вывод очень подробный – выводятся средние, дисперсии, среднеквадратичное отклонение, абсолютное медианное отклонение по группам. По сути проверяемой гипотезы можно сказать следующее: нулевая гипотеза о том, что разница между средними превышает интервал эквивалентности (который задается параметрами eil и eiu), не может быть отвергнута.

6) Тест эквивалентности на незначимости влияния предиктора в модели регрессии

Практика: построим по датафрейму CASchools модель зависимости баллов по математике от количества учителей, компьютеров и среднего дохода, проверим значимость предиктора «количество учителей»

neg.reg(formula=math~teachers+computer+income,data=CASchools,predictor=teachers,eil=-.1,eiu=.1,nboot=50)

Итоговый вывод показывает значение коэффициента при переменой, его 95%-ый доверительный интервал. Общий вывод: нулевая гипотеза о том, что коэффициент регрессии не является незначительным, может быть отклонена.

7) Тест об эквивалентности двух коэффициентов корреляции в группах

Практика: проверим по датафрейму CASchools гипотезу о эквивалентности корреляций между баллами по чтению и математике для студентов с разными системами оценок

yx1 <- CASchools %>% filter(grades=="KK-06")
yx2 <- CASchools %>% filter(grades!="KK-06")
neg.twocors(r1=cor(yx1$math,yx1$read),n1=length(yx1$math),r2=cor(yx2$math,yx2$read),n2=length(yx1$math),eiu=.15,eil=-0.15,  dep=FALSE)

Итоговый вывод показывает значение коэффициентов корреля��ии, 95%-ый доверительный интервал величины разницы между ними, и позволяет сделать вывод о том, что нулевая гипотеза о незначительности разницы между двумя коэффициентами корреляции может быть отклонена.

8) Тест на незначимость разницы средних значений в независимых группах

Практика: возьмем датафрейм CASchools и проверим гипотезу о эквивалентности средних значений баллов по математику для школьников, оценивавшихся по разным системам оценки

neg.twoindmeans(dv=math,iv=grades,eiL=-1,eiU=1,data=CASchools)

Итоговый вывод показывает значения групповых средних, стандартизированную величину разницы средних и ее 90%-ый доверительный интервал, а также результаты проверки двух статгипотез о том, что разница средних больше по модулю заданных экстремальных значений, по согласно которым нельзя отвергнуть нулевую гипотезу о том, что разница между средними превышает интервал эквивалентности.