Комментарии / Профиль rocknrollnerd / Хабр

Артем Хуршудов @rocknrollnerd

Пользователь

Профиль Публикации 6Комментарии 153Закладки 3

Байесовская нейронная сеть — потому что а почему бы и нет, черт возьми (часть 1)

rocknrollnerd 1 мар 2016 в 08:52

Привет) Правдоподобие все-таки записывается как-то не так, кажется (у вас оно выглядит как совместное распределение). Индекс i у параметров распределения и у икс действительно один и тот же — тут я просто последовал картинке, которая была нарисована перед этим (с лежащим на боку гауссианом): мы как бы считаем, что у каждой точки "свое" среднее значение и "свое" стандартное отклонение. Второе мы потом фиксируем, так что индекс тут, наверное, действительно может быть обманчив, но первое вроде бы индексировано правильно — на каждую i-тую точку у нас есть i-тое мю.

Следующий абзац я немного не понял. У меня тут нигде нет тестовой выборки (кроме слайда про ансамбли) — везде в остальных местах одни и те же десять точек, а "адекватность" регрессии предлагается оценить на глазок.

По поводу переобучения вот да, возможно, стоило рассмотреть подробнее. Тут дело не столько в дисперсии, сколько в том, сколько у нас есть данных и насколько сложная у нас модель:

если данных мало, они могут быть нерепрезентативны (выборка из трех бросков монетки может содержать три орла). "Сложная модель" (полином с большой степенью) при этом подгонится под них идеально, приняв случайные отклонения за закономерность (и шум для этого необязательно должен быть очень большим).
классический выход такой: либо использовать больше данных (взять не десять точек из датасета, а сотню), либо если никак, то взять модель попроще.
в байесовском случае у нас нет такой проблемы, потому что у нас есть prior — мы с самого начала "верим" одинаково во все возможные кривые, и если данных "мало", то это сдвигает нашу уверенность незначительно (это верно и в случае регрессии с регуляризацией тоже). Более того, мы можем выбирать модель какой угодно сложности, потому что вероятность каждой кривой тем меньше, чем больше у нее параметров (а вот это уже работает только для full Bayes-решения, вроде того, что мы рассмотрели). Я про это впервые прочитал у Хинтона под заголовком "overfitting: a frequenist illusion?", и может быть, вот эта лекция принесет немного больше ясности.