«чаще конфликтует» — предполагает сравнение вероятностей событий. Вероятности нам даны в количествах: 10 событий в одной группе и 6 в другой. Потому что «среднее значение конфликтов» — некорректно. «Конфликт» — не относительная величина, чтоб иметь среднее. А среднее количество — тоже глупо. И если анализировать именно количество конфликтов, то задача сводится к тестированию наблюдаемого распределения конфликтов по двум группам (6,10) против равномерного распределения (8,8) и решается именно точным критерием Фишера или критерием хи-квадрат.
Анкетирование не поможет, Вы правы. Но есть такие штуки как mixture models — вместо того, чтоб подогнать данные под одну регресионную кривую (или прямую) — можно позволить разбиение данных на N групп и создавать для каждой группы отдельную регрессию, причем минимизируя общую сумму квадратов отклонений одновременно с поиском лучшего разбиения.
Судя по квантилям остатков их распределение ассиметричное со скосом в правую сторону. Да и зависимая переменная — количество. В таких случаях более корректным является предварительное логарифмирование зависимой переменной или применение регрессии Пуассона. То есть все написанное автором — правильно, но пример подобран не совсем удачно. Кроме того, для оценки нормальности распределения остатков более подходит инспекция квантиль-квантильного нормального графика. Ведь критерий Шапиро-Уилка в случае больших выборок отклонит нулевую гипотезу нормальности при очень слабых нарушениях, а при очень малых размерах выборки — останется нечуствителен даже для серьёзных нарушений. Но в общем написано толково.
Согласен. А для регрессии с Парето-распределенной зависимой переменной можно использовать достаточно универсальный инструмент — GAMLSS (имплементирован на R и Java).
Действительно, тесты на нормальность при малых размерах выборки не смогут отбросить гипотезу о нормальном распределении даже если ним там и не пахнет, а при больших размерах даже при пустяковых отклонениях дадут р<0,05. Поэтому их использование справедливо только для небольшого интервала размеров (где то посередине). Так вот, на глаз — а именно инспекция квантиль-квантильного нормального графика — как раз самое то. А нули при измерении давления — это выбросы, от них нужно избавлятся.
Поддерживаю и согласен со всем. 1. В разных сферах — разная природа данных. Их природа и определяет форму распределения. Но следует учитывать, что в статистических тестах нормальным должно быть распределение остатков, а не исходной выборки (хоть они и связаны). У меня при анализе медицинских данных около 30% случаев имеют распределение остатков достаточно близкое к нормальному.
3. Поэтому размер эффекта более важен нежели р-величины.
1. Причиной того, что Вы не видели в настоящих данных нормального распределения может быть то, что Вы ожидаете теоретическое нормальное распределение (вместо емпирического). Посмотрите на гистограммы выборок, полученных генератором случайных нормально распределенных чисел при разных размерах выборок. Вы должны сравнивать именно с такими гистограммами, а не с теоретической кривой. При малых размерах выборки гистограммы нормального распределения достаточно сильно отличаются.
2. Не согласен что параметрические тесты неприменимы: при умеренных отклонениях от нормального распределения они всегда дают правильный ответ. Но согласен, что их часто используют в ситуациях когда они становятся ошибочны.
3. Понятия точности для статистического теста не определено. Есть понятие мощности теста. Мощность — вероятность, что тест отклонит нулевую гипотезу, если она на самом деле не верна. Мощность параметрических тестов гораздо выше чем непараметрических и возрастает (в приближении) пропорционально квадрату количества наблюдений.
4. Число возможных сочетаний с повторениями конечно. При использовании в бутстрапе всех таких сочетаний результат оптимален. Конечно, в примере, данном в статье, число сочетаний с повторениями слишком огромно, но при малых размерах выборки вполне достижимо.
mice
: Multivariate Imputation by Chained Equations. Рекомендую посмотреть, может пригодится.3. Поэтому размер эффекта более важен нежели р-величины.
2. Не согласен что параметрические тесты неприменимы: при умеренных отклонениях от нормального распределения они всегда дают правильный ответ. Но согласен, что их часто используют в ситуациях когда они становятся ошибочны.
3. Понятия точности для статистического теста не определено. Есть понятие мощности теста. Мощность — вероятность, что тест отклонит нулевую гипотезу, если она на самом деле не верна. Мощность параметрических тестов гораздо выше чем непараметрических и возрастает (в приближении) пропорционально квадрату количества наблюдений.
4. Число возможных сочетаний с повторениями конечно. При использовании в бутстрапе всех таких сочетаний результат оптимален. Конечно, в примере, данном в статье, число сочетаний с повторениями слишком огромно, но при малых размерах выборки вполне достижимо.