Как стать автором
Обновить

Средние ошибки и их квадраты

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.9K

Я сейчас прохожу базовый курс по машинному обучению. На втором занятии в рамках блока МО в видео лекции мой преподаватель показывает формулу

 \text{L} =  (y_i - \hat{y}_i)^2

И говорит, что вот это loss и он же - квадратичное отклонение, а MSE это средний показатель, поэтому MSE это среднеквадратичное отклонение.

 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

Тут я несколько выпал, так как из физики точно помню что среднеквадратичное отклонение это корень из очень похожей формулы. Давайте разбираться.

Существует формула дисперсии случайной величины, вот она

 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

Выглядит MSE действительно очень похоже. Но должны быть причины, по которым у них называния разные. Во-первых MSE это не про случайную величину. Во-вторых, обратите внимание на \bar{x} и \hat{y}, дело, разумеется, не в том что один x, а другой y. Дело в том, что черта над переменной означает её математическое ожидание, а y одел себе шляпу потому что он не настоящий, а оценочный, предсказанный. В статистике есть и другие обозначения:

\tilde{x} для медианы
x^*для оптимального значения

И, наверняка, много других, о которых я не знаю.

Итого, в случае с дисперсией случайно величины мы имеем дело с мат ожиданием этой величины (в количестве одной штуки) и множеством полученных результатов вокруг неё. В случае с MSE мы имеем дело с множеством предсказаний и множеством истинных результатов. Для каждого предсказания существует своя мишень для попадания, а не одна общая для всех. По крайней мере пока мы решаем задачу по вычислению величины таргета, а не пишем модель для попадания в мишень всеми видами дротиков, копий и стрел.

Под катом база про мат ожидание, тебе, она, скорее всего, не нужна

Hidden text

Математическое ожидание это та величина, расстояние между которой и случайными величинами в среднем будет наименьшим. Если у нас дискретная величина - и мы бросаем кубик, например, мат ожидание результата: (1+6)/2 =3.5. Такое число нам никогда не выпадет, но в среднем расстояние от результатов до этого числа минимально. Если взять и нарисовать на стороне с двойкой третью точку, то вероятность выпадения 3ки вырастет в два раза, а двойка исчезнет. Мы либо можем очень много раз бросить кубик и снова посчитать среднее арифметическое и оно будет совпадать с мат ожиданием, либо можем воспользоваться формулой, учитывающей разные вероятности:

\bar{x}  = \sump*x, где p это вероятность выпадения числа, а x - сами числа.

(1/6)*(1+4+5+6) + (2/6)*3 = 3.66... Действительно, получилось чуть большее чем 3.5.

В связи с мат ожиданием можно ещё почитать про Мартингейл и подивиться находчивости работников казино для привлечения постоянных клиентов.

Как сказано выше, общего мат ожидания для предсказаний нет и не может быть. Об истинных значениях таргета можно думать как о множестве мат ожиданий для объектов (строк исследуемой таблицы) по отдельности (уже допущение), однако это не уравняет дисперсию с MSE, дисперсия это разброс вкруг, а MSE это средний косяк модели по data. В их формулах используются разные разности. Если хочется MSE как то иначе назвать то это и не дисперсия и не среднеквадратичное отклонение, а средний квадрат разности.

Теперь Среднеквадратическое отклонение, СКО, среднее квадратичное, квадратичное отклонение, стандартное отклонение, Standard deviation.

Это всё псевдонимы корня квадратного из дисперсии. Не из MSE, а именно из дисперсии случайной величины. А если вы извлекаете корень квадратный из MSE это уже RMSE, а не СКО, хотя оба получаются извлечением корня из результатов внешне похожих функций. RMSE пригодится, если ваши абсолютные величины имеют большой порядок и MSE, как и положено квадратичной функции улетает в космос. В отличие от СКО, которое в МО только вызывает путаницу.

PS: Если я где не прав, уверен хабр меня поправит, я хочу чтобы на сайте была короткая статья, ставящая точки в вопросе квадратов разностей, их сумм, их корней.

Теги:
Хабы:
Всего голосов 4: ↑3 и ↓1+2
Комментарии3

Публикации

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
14 сентября
Конференция Practical ML Conf
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
20 – 22 сентября
BCI Hack Moscow
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн