❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_4
?Вопрос_4: Как проверить нормальность набора данных или признака?
✔️Ответ: Существует список проверок нормальности, они следующие:
W-тест Шапиро-Уилка:
Рассчитывается выборочное среднее и ковариационная матрица выборки;
Затем вычисляются статистики заказа (например, i-е наименьшее число в выборке) и ожидаемые значения из статистики заказа, выбранные из стандартного нормального распределения;
Наконец, вычисляется W-статистика, которая сравнивается с критическим значением, полученным через моделирование Монте-Карло;
Если W-статистика значима, то гипотеза о нормальном распределении данных отвергается, то есть данные, не следуют нормальному распределению;
Тест Мартинеса-Иглевича:
Вычисляются квантили выборки;
Эти квантили сравниваются с квантилями стандартного нормального распределения;
Расстояние между квантилями выборки и стандартного нормального распределения вычисляется для каждого квантиля;
Если все расстояния меньше некоторого критического значения, то гипотеза о нормальном распределении данных принимается.
Тест Д'Агостино
Вычисляются эксцесс и асимметрия выборки и эти значения сравниваются с ожидаемыми значениями для нормального распределения;
Расстояние между вычисленными и ожидаемыми значениями вычисляется для каждого из них;
Если оба расстояния меньше некоторого критического значения, то гипотеза о нормальном распределении данных принимается.
https://t.me/DenoiseLAB
#work #coding #testing #optimization #ml #learning