Теорема Гаусса‑Маркова и ее условия / Хабр

Если вы хоть раз строили линейную регрессию и задавались вопросом «а почему именно метод наименьших квадратов (далее МНК)?» – ответ вас ждал всё это время в теореме Гаусса‑Маркова.

Суть теоремы

Теорема Гаусса-Маркова утверждает, что в линейной модели регрессии, при выполнении классических предпосылок, оценки коэффициентов, полученные методом наименьших квадратов, являются лучшими линейными несмещёнными оценками, это означает, что они имеют минимальную дисперсию (наиболее точны) среди всех линейных и несмещённых оценок.

Представьте, что вы строите модель для прогнозирования продаж и у вас есть много разных способов оценить коэффициенты, тут можно взять МНК, можно придумать какую-то свою линейную комбинацию данных, можно использовать взвешенные оценки.

Теорема Гаусса‑Маркова говорит: не надо изобретать велосипед. Если выполнены определенные условия, то МНК даст вам наилучший возможный результат среди всех линейных методов и никакая другая линейная оценка не даст меньшей дисперсии при сохранении несмещенности, это мощный результат, который позволяет нам спать спокойно, используя стандартные библиотеки вроде statsmodels или sklearn.

Таким образом, теорема Гаусса‑Маркова отвечает на вопрос: почему мы вообще имеем право использовать обычный МНК? Ответ: потому что при выполнении определённых условий МНК – это BLUE, то есть:

Best – то есть самая эффективная (с минимальной дисперсией среди всех линейных несмещенных оценок);
Linear – линейная по оси y;
Unbiased – несмещенная (в среднем попадает в истинное значение);
Estimator – оценка параметров.

Теорема на языке математики
В матричной форме модель выглядит так y = Xβ + ε
При условиях Гаусса‑Маркова: E(ε|X) = 0 и Var(ε|X) = σ²I.
Оценка МНК – β̂ = (XᵀX)⁻¹Xᵀy.
Теорема утверждает: для любой линейной несмещенной оценки β̃ = Cy выполнено: Var(β̂) ≤ Var(β̃), то есть у МНК – минимальная дисперсия среди всех линейных несмещенных конкурентов.

Условия:

Но есть нюанс: это работает только при выполнении ряда условий, их как раз называют условиями Гаусса‑Маркова, их несколько, и каждое из них одинаково важное:

1) Линейность по параметрам – модель должна быть линейной относительно коэффициентов, потому что если связь нелинейная, МНК может давать смещенные оценки. Тут сама зависимая переменная может быть нелинейной функцией от факторов (можно добавлять квадраты, логарифмы, взаимодействия), но коэффициенты должны входить в уравнение линейно.

Пример правильной модели: y=β0+β1x+β2x2+ε
Здесь коэффициенты β₀, β₁, β₂ входят линейно, хотя фактор x может быть в квадрате.

Пример неправильной модели: y=β0+β1β2x+ε
Здесь коэффициенты нелинейно связаны между собой.

Если это условие нарушено, то оценки МНК могут быть смещены и теряют свойство оптимальности, более того, сама интерпретация коэффициентов становится невозможной.

2) Случайная выборка – данные должны быть случайной выборкой из генеральной совокупности

Формально должно быть так, что наблюдения независимы и одинаково распределены и ваши данные должны быть собраны так, чтобы каждый объект попадал в выборку случайно и независимо от других.

Если вы собираете данные только по успешным клиентам, игнорируя тех, кто ушел, выборка перестает быть случайной и оценки будут смещены, потому что модель не видит "плохих" примеров.

Обычно это условие принимается на этапе сбора данных, статистическими тестами его проверить сложно, но можно посмотреть на распределение признаков в выборке и сравнить с известными характеристиками генеральной совокупности (если они есть).

3) Нулевое условное матожидание ошибки – E(εX) = 0 – это означает, что модель не упустила систематической составляющей

В среднем ошибка модели не зависит от факторов и равна нулю, иными словами, модель не упустила никакой систематической составляющей.

Представьте, что вы предсказываете зарплату по возрасту, но не учли образование, тогда для людей с высшим образованием ошибка будет систематически положительной (модель недооценивает их зарплату), а для людей без образования – отрицательной. Условное матожидание ошибки перестанет быть нулем.

Это условие гарантирует несмещенность оценок, а если оно нарушено, коэффициенты будут смещены, причем непонятно, в какую сторону и насколько сильно.

4) Гомоскедастичность Var(εX) = σ² (постоянная дисперсия ошибок) – если дисперсия меняется (гетероскедастичность), оценки перестают быть эффективными.

Разброс ошибок одинаков для всех наблюдений, он не зависит от того, маленькое значение фактора или большое.

В данных о доходах людей ошибка модели будет расти с доходом – для бедных людей доход предсказывается достаточно точно, а для богатых разброс огромен – это классический случай гетероскедастичности.

Как ее проверять: можно визуально: построить график остатков от предсказанных значений и если видна воронка (разброс растет), то гетероскедастичность есть, также можно использовать тест Голдфелда-Квандта и Тест Уайта.

При гетероскедастичности оценки остаются несмещенными, но перестают быть эффективными (дисперсия не минимальна) и главная проблема в другом: стандартные ошибки считаются неправильно, а значит p-value и доверительные интервалы будут неверными .

5) Отсутствие автокорреляции – Corr(εᵢ, εⱼ) = 0 для i≠j – ошибки не должны быть связаны между собой.

Временные ряды – это сегодняшняя ошибка часто похожа на вчерашнюю, то есть если сегодня продажи оказались выше прогноза, то и завтра они, скорее всего, тоже будут выше.

Как проверять отсутствие автокорреляции: Тест Дарбина-Уотсона или построить график автокорреляции остатков.

Как и с гетероскедастичностью, оценки остаются несмещенными, но стандартные ошибки занижаются, модель кажется точнее, чем есть на самом деле.

Итог по условиям: если все эти условия выполнены, то МНК действительно лучший среди линейных несмещенных, но если нет, то могут быть варианты получше.

В реальной работе идеальные условия встречаются редко, но знание теоремы помогает понимать:
- Что может пойти не так, например, если в данных есть гетероскедастичность или автокорреляция, то мы понимаем, что стандартные ошибки могут быть занижены, а значит, p-value будут слишком красивым и ровными .
- Когда можно расслабиться, наример, если выборка случайная, ошибки гомоскедастичны и независимы, то МНК даёт лучшие оценки из возможных, можно остановиться на этом методе.

Что использовать, если условия нарушены:

Нарушение	Что делать
Гетероскедастичность	Использовать робастные стандартные ошибки (HC0, HC1, HC2, HC3)
Автокорреляция	Использовать стандартные ошибки Ньюи-Уэста, переходить на модели временных рядов
Эндогенность	Использовать инструментальные переменные, двухшаговый МНК
Нелинейность	Преобразовывать переменные (полиномы, сплайны) или использовать нелинейные модели

Итог

Теорема Гаусса‑Маркова – это фундамент, на котором строится доверие к регрессионному анализу, тут точно стоит помнить главное:

Все пять условий Гаусса‑Маркова;

Гомоскедастичность и отсутствие автокорреляции – про эффективность и правильные стандартные ошибки;
Эндогенность – это про смещение (это самое страшное, лечится сложнее всего);
Если условия выполнены – то МНК действительно лучший среди линейных несмещенных.;
Если условия нарушены – не паниковать, а использовать соответствующие коррекции (робастные ошибки, GLS, инструментальные переменные).

✔️Если нужно больше информации, то рекомендую книгу Магнус, Я. Р., Нейдеккер, Х. (2019). Математическая статистика для эконометристов – это отличный русскоязычный источник.

📚Еще больше про будни и задачи аналитика данных в бигтехе в моем тг канале 🌸Таня и Данные📊