Данная статья посвящена описанию базы математической статистики.
Сразу к делу.
Постановка задачи
Главная задача математической статистики заключается в оценке распределения случайных величин, основываясь на выборке данных.
Мы рассматриваем выборку, которая является реализацией случайных величин . И мы предполагаем, что случайные величины одинаково распределены и в совокупности независимы.
Наша цель — определить, каков закон распределения этих случайных величин, т.е. оценить функцию распределения случайных величин и ее параметры.
Функцию распределения истинной случайной величины (которой высшие силы описывают случайную величину) можно обозначить как:
где - это параметр/параметры этого распределения.
Инструменты для решения поставленной задачи
Приведу сначала список, а потом рассмотрю некоторые пункты подробнее:
Оценки параметров
Точечные оценки параметров
Методы построения точечных оценок
Интервальные оценки параметров
Эмпирическая функция распределения
Проверка статистических гипотез
Точечные оценки параметров
Определение.
Точечная оценка — это функция от элементов выборки, которая принимает значения в параметрическом пространстве и обозначается как .
Качество оценок.
Оценка может быть:
1) несмещенной (в среднем равна истинному значению параметра), если для выполнено:
2) состоятельной (сходимость по вероятности оценочной функции к истинному значению при увеличении объема выборки), если выполнено:
при
Сходимость по вероятности это:
3) асимптотически нормальной, если для выполняется:
где - асимптотическая дисперсия.
Методы построения точечных оценок
Метод моментов.
Оценка параметров через равенство теоретических и эмпирических моментов.
На нём я останавливаться не буду, скажу лишь, что для этого метода нам нужны априорные знания о моментах случайных величин до порядка k, где k - это количество параметров истинного распределения.
Метод максимального правдоподобия.
Он в каком-то смысле более мощный. Здесь, в отличие от метода моментов, никакой догадки, априорных знаний нам не нужно.
По жизни распределения (с которыми обычно работаем) бывают двух типов: дискретные и абсолютно непрерывные. Поэтому введём в функцию, которую можно назвать плотностью для обоих типов распределения:
1)
2)
И введём функция правдоподобия:
Смысл функции такой: мы перемножаем либо вероятности (в дискретном случае), либо плотности (в абс. непрерывном), с условиями . То есть, это либо вероятность того, что и так далее до , либо совместная плотность для и так далее до .
В двух словах о методе.
Можно сказать, что эта совместная вероятность (функция правдоподобия) показывает следующее. Чем больше значение этой функции, тем больше вероятность того, что именно такая случ величина принимает такое значение и так далее, при выбранных параметрах. И следовательно, тем правдоподобнее эти параметры, то есть тем вероятнее, что именно с этим параметром и задана функция распределения, которую используют высшие силы для описания нашей случайной величины.
Из абзаца выше следует, что нам нужна точка максимума .
Находить максимум удобнее через экстремумы функции, то есть через приравненную к нулю производную функции. Но дифференцировать L тяжело, поэтому лучше взять логарифм от L. Точка максимума будет одна и та же, так как логарифм монотонная функция.
Следовательно, решив уравнение:
мы найдём экстремум, а значит и нужную нам оценку .
Эмпирическая функция распределения
Оценка функции распределения по данным выборки. Эмпирическая функция распределения имеет вид:
Данная функция является несмещенной и состоятельной оценкой истинной функции распределения для каждого . Но проблема в том, что мы смотрим только на точечные оценки функции распределения. А теорема ниже утверждает, что эта оценка также хорошо апроксимирует функцию распределения на всей прямой сразу.
Теорема Гливенко-Кантелли:
Если мы возьмём вероятность того, что супремум по всем x из R модуля разности оценки функции распределения и истинной функции распределения при стремится к нулю, то это вероятность будет равна 1.
То есть теорема утверждает, что для почти любой выборки, которая может породиться в рамках эксперимента, не просто разность между оценкой и истинным распределением близка к нулю, а даже супремум этой разности на все прямой стремиться к нулю при увеличении выборки.
Проверка статистических гипотез
Поиск доказательства или опровержения предварительных предположений о распределении данных или о параметрах распределения.
Основные виды ошибок: ошибка 1-го рода (отказ от нашей гипотезы, хотя она верна) и ошибка 2-го рода (принятия нашей гипотезы, хотя она ложна). Ошибка 2-го рода самая страшная.
Допустим наша гипотеза в том, что выборочная функция распределения совпадает с известной нам функцией распределения, например с нормальной .
Как построить оценку функции распределения мы поняли, а так же убедились, что наша э.ф.р. апроксимирует истинную функцию распределения. (в пункте про эмпирическую функцию распределения).
А как узнать совпадает ли э.ф.р. с предполагаемой нами функцией распределения с такими-то вот параметрами? И с какой вероятностью мы можем ошибаться?
Отвечает Александр Друзь Андрей Колмогоров.
Критерий, названный в честь Колмогорова помогает ответить на эти вопросы. Существуют и другие критерии для работы с различными гипотезами, но мы рассмотрим для примера колмогоровский критерий.
Но сначала про теорему Колмогорова. Она утверждает, что выражение:
можно привести к распределению, которое называется (сюрприз) Колмогоровским.
Связь теоремы Колмогорова и теоремы Гливенко-Кантелли можно сравнить со связью центральной предельной теоремы и закона больших чисел, формулы которых следующие:
- ЗБЧ
- ЦПТ
Как выражение из закона больших чисел можно преобразовать в случайную величину со стандартным нормальным распределением, так и преобразованное выражение из теоремы Гливенко-Кантелли подобным образом сходится по распределению к распределению Колмогорова.
Итак, суть теоремы:
- это выражение из теор. Г-К обозначим как
И при условии, что - непрерывно (это важно) выполняется:
где - случайная величина с тем самым колмогоровским распределением:
=
1)
2)
Зачем нам вообще это надо, зачем приводить выражение к случайной величине с колмогоровским распределением?
Сначала стоит вспомнить для чего мы здесь, что мы хотим от нашей выборки элементов.
А хотим мы понять как распределены эти числа, если вообще как-то распределены, по какому закону высшие силы спускают нам эти значения.
И связка теорем Гливенко-Кантелли и Колмогорова один из способов это сделать. Он называется критерием колмогорова.
Критерий колмогорова используется для проверки гипотез на согласованность выборки с какой-то известной функцией распределения.
Делается это так. Мы можем предположить, что в выражении истинная функция распределения - это например ф.р. стандартного нормального распределения . И преобразуем его так:
Тогда логично предположить, что чем больше тем меньше наша э.ф.р. похожа на нормальную ф.р..
Но в математике любят, когда всё формализовано, поэтому отойдём чуть-чуть в сторону и введём понятие критического множества. Это такое множество , что если (выборка в него попадает), то отвергаем гипотезу.
Вернёмся к . Мы ввели критическое множество, чтобы формализовать проверку насколько наше значение велико, то есть какой порог должно переступить значение , чтобы считать, что оно слишком большое, то есть наша э.ф.р. слишком не похожа на гипотетическую ф.р..
Тогда критическое множество можно записать так:
Получается от зависит порог принятия решения (когда отвергаем гипотезу). И в зависимости от того как мы выберем эту константу будет зависеть вероятность ошибки 1-го рода (отвергаем нашу гипотезу, хотя она верна).
Распишем это:
, что равно
Эта точка:
будет квантиль колмогоровского распределения.
И если мы так выбираем c, то переименуем в:
И эта точка - критическая точка для или же квантиль для .
Вывод.
Гипотеза тем разумнее (сильнее), чем выше для неё значение порога .
То есть чем больше , тем меньше . Чем меньше , тем больше критическое множество . Чем больше крит. множество и при этом наша гипотеза не отвергается, тем сильнее эта гипотеза.
И пару слов про p-value.
Часто при принятии решения по гипотезе сравниваются не критические точки ( и ), а p-value и .
Но по сути это то же самое, то есть как является критической точкой для , так и является критической точкой для p-value.
Соответственно, если , то
По такой же логике выбора уровня значимости , критического множества и проверке гипотез работают и другие критерии, связанные как с проверкой выборок, так и с проверкой параметров выборок.