Как стать автором
Поиск
Написать публикацию
Обновить

Конспект по «Машинному обучению». Математическая статистика. Метод максимального правдоподобия

Время на прочтение3 мин
Количество просмотров13K


Вспомним некоторые определения математической статистики


Пусть задано вероятностное пространство $(\Omega, \Sigma, P)$.

Определение 1:

Случайной величиной $\xi = \xi(w)$, принимающей значения в множестве $S$ c $\sigma$-алгеброй подмножеств $\Phi$ называется любая $(\Sigma, \Phi)$-измеримая функция $\xi \colon \Omega \to S$, то есть $\forall A \subseteq S, A \in \Phi$ выполняется условие $\xi^{-1}(A)=\{\omega \in \Omega \space \colon \space \xi(w) \in A\} \in \Sigma$.

Определение 2:

Выборочное пространство — это пространство всех возможных значений наблюдения или выборки вместе с $\sigma$-алгеброй измеримых подмножеств этого пространства.
Обозначение: $(B, \mathscr{B})$.

Определённые на вероятностном пространстве $(\Omega, \Sigma, P)$ случайные величины $\xi, \eta,\ldots \colon \Omega \to B$ порождают на пространстве $(B, \mathscr{B})$ вероятностные меры $P_\xi\{C\} = P\{\xi \in C\}, P_\eta\{C\} = P\{\eta \in C\}, \ldots$ На выборочном пространстве определяются не одна вероятностная мера, а конечное или бесконечное семейство вероятностных мер.

В задачах математической статистики известно семейство вероятностных мер $\{P_\theta, \space \theta \in \Theta\}$, определённых на выборочном пространстве, и требуется по выборке определить, какой из вероятностных мер этого семейства соответствует выборка.

Определение 3:

Статистическая модель — совокупность, состоящая из выборочного пространства и семейства определённых на нём вероятностных мер.

Обозначение: $(B, \mathscr{B}, \mathscr{P})$, где $ \mathscr{P} = \{P_\theta, \space \theta \in \Theta\}$.

Пусть $B = \mathbb{R}^n$ и $(\mathbb{R}^n, \mathscr{B})$ — выборочное пространство.

Выборку $X = (x_1, \ldots ,x_n)$ можно рассматривать, как совокупность $n$ действительных чисел. Припишем каждому элементу выборки вероятность, равную $\frac{1}{n}$.

Пусть

$I_x(B) = \begin{cases} 1, \quad x \in B\\ 0, \quad x \not\in B \end{cases}$


Определение 4:

Эмпирическим распределением, построенным по выборке X, называется вероятностная мера $P_n^*$:

$P_n^*(B) = \frac{1}{n}\sum_{k = 1}^nI_{x_k}(B)$


То есть $P_n^*(B)$ — отношение числа элементов выборки, которые принадлежат $B$, к общему числу элементов выборки: $P_n^*(B) = \frac{\nu_n(B)}{n}, \space \nu_n(B) = \sum\limits_{k=1}^nI(x_k \in B), \space B \in \mathscr{B}$.

Определение 5:

Выборочным моментом порядка $k$ называется

$\hat{m}^*_k = \hat{m}^*_k(X)=\frac{1}{n} \sum_{j=1}^nx_j^k $

$\hat{m}_1^* = \overline{X} = \frac{1}{n} \sum\limits_{j=1}^n x_j$выборочное среднее.

Определение 6:

Выборочный центральный момент порядка $k$ определяется равенством

$\hat{m}_k^{*(0)} = \hat{m}_k^{*(0)}(X) = \frac{1}{n} \sum_{j=1}^n (x_j - \overline{X})^k$

$S^2=S^2(X)=\hat{m}_2^{*(0)} = \frac{1}{n} \sum\limits_{j=1}^n (x_j - \overline{X})^2$выборочная дисперсия.

В машинном обучении многие задачи заключаются в том, чтобы по имеющимся данным научиться подбирать параметр $\theta$, который наилучшим образом описывает эти данные. В математической статистике для решения подобной задачи часто используют метод максимального правдоподобия.

В реальной жизни часто распределение ошибок имеет нормальное распределение. Для некоторого обоснования приведём формулировку центральной предельной теоремы.

Теорема 1 (ЦПТ):

Если случайные величины $\xi_1, \ldots, \xi_n$ — независимы, одинаково распределены, математическое ожидание $M(\xi_i) = a$, дисперсия $D(\xi_i) = \sigma^2\in(0, +\infty) \space \forall i \in \overline{1,n}$, то

$\lim\limits_{n \to \infty}P\{\frac{\xi_1+\xi_2+\ldots+\xi_n - na}{\sigma\sqrt{n}} \leq x\}=F(x)=\frac{1}{\sqrt{2\pi}}\int\limits_{-\infty}^xe^{-u^2/2}du .$


Ниже сформулируем метод максимального правдоподобия и рассмотрим его работу на примере семейства нормальных распределений.

Метод максимального правдоподобия


Пусть для статистической модели $(B, \mathscr{B}, \mathscr{P} = \{P_\theta, \space \theta \in \Theta\})$ выполнены два условия:

  • если $\theta_1 \not= \theta_2$, то $P_{\theta_1} \not = P_{\theta_2}$;
  • существует такая мера $\mu$ на $(B, \mathscr{B})$, относительно которой для любой меры $P_\theta$, $\theta \in \Theta$, существует плотность $f_\theta(x)=\frac{dP_\theta(x)}{d\mu}(x)$, то есть $\forall C \in \mathscr{B} \quad P_\theta(C) = \int\limits_Cf_\theta(x)\mu(dx)$.

Определение 7:

Оценкой максимального правдоподобия (о.м.п) $\hat{\theta}$ параметра $\theta$ называется построенное по эмпирической мере $P^*_n$, соответствующей выборке $X=(x_1, \ldots, x_n)$, значение $\theta \in \Theta$, при котором достигается $\max\limits_{\theta \in \Theta}\int \ln f_\theta(x)P_n^*(dx)=\max\limits_{\theta \in \Theta}\frac{1}{n}\sum\limits_{i=1}^n\ln f_\theta(x).$

Определение 8:

Функция $\Lambda_\theta(X) = \prod\limits_{i=1}^n f_\theta(x_i)$, как функция от $\theta$, называется функцией правдоподобия, а функция $L(X,\theta) = \sum\limits_{i=1}^n \ln f_\theta(x_i)$логарифмическая функция правдоподобия.

Эти функции достигают максимума при одних и тех же значениях $\theta$, так как $\ln x$монотонная возрастающая функция.

Пример:

$\mathscr{P}=\{N(a, \sigma^2)\space|\space a\in \mathbb{R}, \space \sigma \in (0, +\infty) \}$ — семейство нормальных распределений с плотностями $\phi_{a, \sigma^2}(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\{-\frac{1}{2\sigma^2}(x-a)^2\}$. По выборке $X=(x_1, \ldots, x_n)$

$\Lambda_{a, \sigma}(X) = \frac{1}{(2\pi)^{\frac{n}{2}}\sigma^n}\exp\{-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n(x_j-a)^2\};$

$L(X, (a,\sigma)) = -\frac{n}{2}\ln2\pi - n\ln\sigma - \frac{1}{2\sigma^2}\sum\limits_{i=1}^n(x_i-a)^2;$

$\frac{\partial L}{\partial a} = \frac{1}{\sigma^2}\sum\limits_{i=1}^n(x_i-a), \quad \frac{\partial L}{\partial \sigma} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum\limits_{i=1}^n(x_i-a)^2;$

$\frac{\partial L}{\partial a} = 0 \quad \Rightarrow \quad \sum\limits_{i=1}^nx_i - na = 0 \quad \Rightarrow \quad \frac{1}{n}\sum\limits_{i=1}^nx_i = \overline{X} = \hat{a};$

$\frac{\partial L}{\partial \sigma} = 0 \quad \Rightarrow \quad \frac{n}{\sigma} = \frac{1}{\sigma^3} \sum\limits_{i=1}^n(x_i - a)^2 \quad \Rightarrow \quad \hat{\sigma} = \sqrt{\frac{1}{n} \sum\limits_{i=1}^n(x_i - \overline{X})^2} = \sqrt{S^2}.$

Получили оценки для математического ожидания и дисперсии.

Если внимательно посмотреть на формулу

$L(X, (a,\sigma)) = -\frac{n}{2}\ln2\pi - n\ln\sigma - \frac{1}{2\sigma^2}\sum\limits_{i=1}^n(x_i-a)^2$

можно сделать вывод, что функция $L(X, (a,\sigma))$ принимает своё максимальное значение, когда $\sum\limits_{i=1}^n(x_i-a)^2$ минимальна. В задачах машинного обучения часто используют метод наименьших квадратов, в котором минимизируют сумму квадратов отклонений предсказанных значений от истинных.

Список используемой литературы:


  • Конспект лекций по математической статистике, автор неизвестен;
  • «Глубокое обучение. Погружение в мир нейронных сетей», С. Никуленко, А. Кадурин, Е. Архангельская, ПИТЕР, 2018.
Теги:
Хабы:
Всего голосов 14: ↑8 и ↓6+2
Комментарии1

Публикации

Ближайшие события