Конспект по «Машинному обучению». Математическая статистика. Метод максимального правдоподобия / Хабр

Вспомним некоторые определения математической статистики

Пусть задано вероятностное пространство $(\Omega, \Sigma, P)$ .

Определение 1:

Случайной величиной $\xi = \xi(w)$ , принимающей значения в множестве $inline$ c $\sigma$ -алгеброй подмножеств $\Phi$ называется любая $(\Sigma, \Phi)$ -измеримая функция $\xi \colon \Omega \to S$ , то есть $\forall A \subseteq S, A \in \Phi$ выполняется условие $\xi^{-1}(A)=\{\omega \in \Omega \space \colon \space \xi(w) \in A\} \in \Sigma$ .

Определение 2:

Выборочное пространство — это пространство всех возможных значений наблюдения или выборки вместе с $\sigma$ -алгеброй измеримых подмножеств этого пространства.
Обозначение: $(B, \mathscr{B})$ .

Определённые на вероятностном пространстве $(\Omega, \Sigma, P)$ случайные величины $\xi, \eta,\ldots \colon \Omega \to B$ порождают на пространстве $(B, \mathscr{B})$ вероятностные меры $P_\xi\{C\} = P\{\xi \in C\}, P_\eta\{C\} = P\{\eta \in C\}, \ldots$ На выборочном пространстве определяются не одна вероятностная мера, а конечное или бесконечное семейство вероятностных мер.

В задачах математической статистики известно семейство вероятностных мер $\{P_\theta, \space \theta \in \Theta\}$ , определённых на выборочном пространстве, и требуется по выборке определить, какой из вероятностных мер этого семейства соответствует выборка.

Определение 3:

Статистическая модель — совокупность, состоящая из выборочного пространства и семейства определённых на нём вероятностных мер.

Обозначение: $(B, \mathscr{B}, \mathscr{P})$ , где $\mathscr{P} = \{P_\theta, \space \theta \in \Theta\}$ .

Пусть $B = \mathbb{R}^n$ и $(\mathbb{R}^n, \mathscr{B})$ — выборочное пространство.

Выборку $X = (x_1, \ldots ,x_n)$ можно рассматривать, как совокупность $inline$ действительных чисел. Припишем каждому элементу выборки вероятность, равную $\frac{1}{n}$ .

Пусть

$I_x(B) = \begin{cases} 1, \quad x \in B\\ 0, \quad x \not\in B \end{cases}$

Определение 4:

Эмпирическим распределением, построенным по выборке X, называется вероятностная мера $inline$ :

$P_n^*(B) = \frac{1}{n}\sum_{k = 1}^nI_{x_k}(B)$

То есть $inline$ — отношение числа элементов выборки, которые принадлежат $inline$ , к общему числу элементов выборки: $P_n^*(B) = \frac{\nu_n(B)}{n}, \space \nu_n(B) = \sum\limits_{k=1}^nI(x_k \in B), \space B \in \mathscr{B}$ .

Определение 5:

Выборочным моментом порядка $inline$ называется

$\hat{m}^*_k = \hat{m}^*_k(X)=\frac{1}{n} \sum_{j=1}^nx_j^k$

$\hat{m}_1^* = \overline{X} = \frac{1}{n} \sum\limits_{j=1}^n x_j$ — выборочное среднее.

Определение 6:

Выборочный центральный момент порядка $inline$ определяется равенством

$\hat{m}_k^{*(0)} = \hat{m}_k^{*(0)}(X) = \frac{1}{n} \sum_{j=1}^n (x_j - \overline{X})^k$

$S^2=S^2(X)=\hat{m}_2^{*(0)} = \frac{1}{n} \sum\limits_{j=1}^n (x_j - \overline{X})^2$ — выборочная дисперсия.

В машинном обучении многие задачи заключаются в том, чтобы по имеющимся данным научиться подбирать параметр $\theta$ , который наилучшим образом описывает эти данные. В математической статистике для решения подобной задачи часто используют метод максимального правдоподобия.

В реальной жизни часто распределение ошибок имеет нормальное распределение. Для некоторого обоснования приведём формулировку центральной предельной теоремы.

Теорема 1 (ЦПТ):

Если случайные величины $\xi_1, \ldots, \xi_n$ — независимы, одинаково распределены, математическое ожидание $M(\xi_i) = a$ , дисперсия $D(\xi_i) = \sigma^2\in(0, +\infty) \space \forall i \in \overline{1,n}$ , то

$\lim\limits_{n \to \infty}P\{\frac{\xi_1+\xi_2+\ldots+\xi_n - na}{\sigma\sqrt{n}} \leq x\}=F(x)=\frac{1}{\sqrt{2\pi}}\int\limits_{-\infty}^xe^{-u^2/2}du .$

Ниже сформулируем метод максимального правдоподобия и рассмотрим его работу на примере семейства нормальных распределений.

Метод максимального правдоподобия

Пусть для статистической модели $(B, \mathscr{B}, \mathscr{P} = \{P_\theta, \space \theta \in \Theta\})$ выполнены два условия:

если $\theta_1 \not= \theta_2$ , то $P_{\theta_1} \not = P_{\theta_2}$ ;
существует такая мера $\mu$ на $(B, \mathscr{B})$ , относительно которой для любой меры $P_\theta$ , $\theta \in \Theta$ , существует плотность $f_\theta(x)=\frac{dP_\theta(x)}{d\mu}(x)$ , то есть $\forall C \in \mathscr{B} \quad P_\theta(C) = \int\limits_Cf_\theta(x)\mu(dx)$ .

Определение 7:

Оценкой максимального правдоподобия (о.м.п) $\hat{\theta}$ параметра $\theta$ называется построенное по эмпирической мере $inline$ , соответствующей выборке $X=(x_1, \ldots, x_n)$ , значение $\theta \in \Theta$ , при котором достигается $\max\limits_{\theta \in \Theta}\int \ln f_\theta(x)P_n^*(dx)=\max\limits_{\theta \in \Theta}\frac{1}{n}\sum\limits_{i=1}^n\ln f_\theta(x).$

Определение 8:

Функция $\Lambda_\theta(X) = \prod\limits_{i=1}^n f_\theta(x_i)$ , как функция от $\theta$ , называется функцией правдоподобия, а функция $L(X,\theta) = \sum\limits_{i=1}^n \ln f_\theta(x_i)$ — логарифмическая функция правдоподобия.

Эти функции достигают максимума при одних и тех же значениях $\theta$ , так как $\ln x$ — монотонная возрастающая функция.

Пример:

$\mathscr{P}=\{N(a, \sigma^2)\space|\space a\in \mathbb{R}, \space \sigma \in (0, +\infty) \}$ — семейство нормальных распределений с плотностями $\phi_{a, \sigma^2}(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\{-\frac{1}{2\sigma^2}(x-a)^2\}$ . По выборке $X=(x_1, \ldots, x_n)$

$\Lambda_{a, \sigma}(X) = \frac{1}{(2\pi)^{\frac{n}{2}}\sigma^n}\exp\{-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n(x_j-a)^2\};$

$L(X, (a,\sigma)) = -\frac{n}{2}\ln2\pi - n\ln\sigma - \frac{1}{2\sigma^2}\sum\limits_{i=1}^n(x_i-a)^2;$

$\frac{\partial L}{\partial a} = \frac{1}{\sigma^2}\sum\limits_{i=1}^n(x_i-a), \quad \frac{\partial L}{\partial \sigma} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum\limits_{i=1}^n(x_i-a)^2;$

$\frac{\partial L}{\partial a} = 0 \quad \Rightarrow \quad \sum\limits_{i=1}^nx_i - na = 0 \quad \Rightarrow \quad \frac{1}{n}\sum\limits_{i=1}^nx_i = \overline{X} = \hat{a};$

$\frac{\partial L}{\partial \sigma} = 0 \quad \Rightarrow \quad \frac{n}{\sigma} = \frac{1}{\sigma^3} \sum\limits_{i=1}^n(x_i - a)^2 \quad \Rightarrow \quad \hat{\sigma} = \sqrt{\frac{1}{n} \sum\limits_{i=1}^n(x_i - \overline{X})^2} = \sqrt{S^2}.$

Получили оценки для математического ожидания и дисперсии.

Если внимательно посмотреть на формулу

$L(X, (a,\sigma)) = -\frac{n}{2}\ln2\pi - n\ln\sigma - \frac{1}{2\sigma^2}\sum\limits_{i=1}^n(x_i-a)^2$

можно сделать вывод, что функция $L(X, (a,\sigma))$ принимает своё максимальное значение, когда $\sum\limits_{i=1}^n(x_i-a)^2$ минимальна. В задачах машинного обучения часто используют метод наименьших квадратов, в котором минимизируют сумму квадратов отклонений предсказанных значений от истинных.

Список используемой литературы:

Конспект лекций по математической статистике, автор неизвестен;
«Глубокое обучение. Погружение в мир нейронных сетей», С. Никуленко, А. Кадурин, Е. Архангельская, ПИТЕР, 2018.