w0lkolak Jun 22 2024 at 06:19

Средние ошибки и их квадраты

Easy

3 min

4.7K

Opinion

Я сейчас прохожу базовый курс по машинному обучению. На втором занятии в рамках блока МО в видео лекции мой преподаватель показывает формулу

$\text{L} = (y_i - \hat{y}_i)^2$

И говорит, что вот это loss и он же - квадратичное отклонение, а MSE это средний показатель, поэтому MSE это среднеквадратичное отклонение.

$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

Тут я несколько выпал, так как из физики точно помню что среднеквадратичное отклонение это корень из очень похожей формулы. Давайте разбираться.

Существует формула дисперсии случайной величины, вот она

$\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$

Выглядит MSE действительно очень похоже. Но должны быть причины, по которым у них называния разные. Во-первых MSE это не про случайную величину. Во-вторых, обратите внимание на $\bar{x}$ и $\hat{y}$ , дело, разумеется, не в том что один x, а другой y. Дело в том, что черта над переменной означает её математическое ожидание, а y одел себе шляпу потому что он не настоящий, а оценочный, предсказанный. В статистике есть и другие обозначения:

$\tilde{x}$ для медианы
для оптимального значения

И, наверняка, много других, о которых я не знаю.

Итого, в случае с дисперсией случайно величины мы имеем дело с мат ожиданием этой величины (в количестве одной штуки) и множеством полученных результатов вокруг неё. В случае с MSE мы имеем дело с множеством предсказаний и множеством истинных результатов. Для каждого предсказания существует своя мишень для попадания, а не одна общая для всех. По крайней мере пока мы решаем задачу по вычислению величины таргета, а не пишем модель для попадания в мишень всеми видами дротиков, копий и стрел.

Под катом база про мат ожидание, тебе, она, скорее всего, не нужна

Hidden text

Математическое ожидание это та величина, расстояние между которой и случайными величинами в среднем будет наименьшим. Если у нас дискретная величина - и мы бросаем кубик, например, мат ожидание результата: (1+6)/2 =3.5. Такое число нам никогда не выпадет, но в среднем расстояние от результатов до этого числа минимально. Если взять и нарисовать на стороне с двойкой третью точку, то вероятность выпадения 3ки вырастет в два раза, а двойка исчезнет. Мы либо можем очень много раз бросить кубик и снова посчитать среднее арифметическое и оно будет совпадать с мат ожиданием, либо можем воспользоваться формулой, учитывающей разные вероятности:

$\bar{x} = \sum$ p*x, где p это вероятность выпадения числа, а x - сами числа.

(1/6)*(1+4+5+6) + (2/6)*3 = 3.66... Действительно, получилось чуть большее чем 3.5.

В связи с мат ожиданием можно ещё почитать про Мартингейл и подивиться находчивости работников казино для привлечения постоянных клиентов.

Как сказано выше, общего мат ожидания для предсказаний нет и не может быть. Об истинных значениях таргета можно думать как о множестве мат ожиданий для объектов (строк исследуемой таблицы) по отдельности (уже допущение), однако это не уравняет дисперсию с MSE, дисперсия это разброс вкруг, а MSE это средний косяк модели по data. В их формулах используются разные разности. Если хочется MSE как то иначе назвать то это и не дисперсия и не среднеквадратичное отклонение, а средний квадрат разности.

Теперь Среднеквадратическое отклонение, СКО, среднее квадратичное, квадратичное отклонение, стандартное отклонение, Standard deviation.

Это всё псевдонимы корня квадратного из дисперсии. Не из MSE, а именно из дисперсии случайной величины. А если вы извлекаете корень квадратный из MSE это уже RMSE, а не СКО, хотя оба получаются извлечением корня из результатов внешне похожих функций. RMSE пригодится, если ваши абсолютные величины имеют большой порядок и MSE, как и положено квадратичной функции улетает в космос. В отличие от СКО, которое в МО только вызывает путаницу.

PS: Если я где не прав, уверен хабр меня поправит, я хочу чтобы на сайте была короткая статья, ставящая точки в вопросе квадратов разностей, их сумм, их корней.

Hubs: