twete Aug 7 2022 at 09:43

Интерпретация summary из statsmodels для линейной регрессии

7 min

20K

Python*Mathematics*

From sandbox

Translation

-1

Comments 5

promsoft Aug 12 2022 at 19:28

https://en.wikipedia.org/wiki/Durbin–Watson_statistic Критерий Дарбина — Уотсона не измеряет гомоскедастичность, он проверяет наличие автокорреляции с лагом 1. И, кмк, не имеет смысла вне временных рядов или панельных данных (когда у нас множественные измерения одного и того же значения в разные моменты времени).

Обычно гетероскедастичность видно глазом, если нарисовать попарные графики регрессионных остатков со всеми признаками (можно взять самые важные признаки).

Гетероскедастичность чаще всего проверяют тестом Голдфелда — Куандта
https://en.wikipedia.org/wiki/Goldfeld–Quandt_test

ANazarov Sep 12 2022 at 17:48

Очень хорошая статья. В основном кратко и по делу. Только один вопрос - это все-таки перевод или ваша оригинальная работа?

twete Sep 14 2022 at 20:12

Перевод с дополнениями. То, чего мне не хватало в оригинальной статье для понимания линейной регрессии -- я добавил здесь и оставил ссылки на источники, которые помогли мне разобраться

ANazarov Sep 25 2022 at 19:25

Кстати, не разбирались с таким вопросом: почему при выдаче результатов summary из statsmodels значение эксцесса остатков отличается от значения, рассчитанного с помощью scipy.stats.kurtosis?

twete Sep 26 2022 at 08:45

А каким образом рассчитываете?
В оригинальной статье приведён пример рассчёта

d = Y - result.fittedvalues

S = np.mean( d**3.0 ) / np.mean( d**2.0 )**(3.0/2.0)
# equivalent to:
# S = stats.skew(result.resid, bias=True)

K = np.mean( d**4.0 ) / np.mean( d**2.0 )**(4.0/2.0)
# equivalent to:
# K = stats.kurtosis(result.resid, fisher=False, bias=True)
print('Skewness: {:.3f},  Kurtosis: {:.3f}'.format( S, K ))

>>> Skewness: -0.014,  Kurtosis: 1.527

В этой функции fisher=True по умолчанию.