Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
mu = N_black / (N_white + N_black) = 0/100 = 0mu = (N_black + alpha - 1) / (N_white + N_black + alpha + beta - 2) = (0 + 5 - 1) / (100 + 5 + 5 - 2) = 0.0370..y = w0 + w1x1 + ... wnxn, которую мы хотим найти. Но, как учил дедушка Лаплас*, точные зависимости мы узнать не можем, поэтому должны работать с вероятностями. Тогда наше уравнение превращается в уравнение со случайными переменными: Y = W0 + W1X1 + ... + WnXnПосле обучения у вас получается не много MLE-сетей, а одна байесовская сеть
которая при каждом прогоне выдает сэмпл параметров (по сути, ту же MLE-сеть).
Разница только в том, что метод с обучением классического ансамбля довольно эвристический в надежде что у базовых моделей ошибки противоположные, а тут ансамбль получается как бы выдающий сэмплы согласно уверенности в данных.
они байесовский подход реализовали не построением модели для всех возможных комбинаций параметров [...]
В моём понимании...
Вот тут не понял, что есть байесовский подход?
BNN — это не feed-forward сеть, через нее нельзя прогнать данные
параллельно обученные на разных подмножествах данных в наивной надежде, что ошибки при их усреднении «сократятся», а не усилятся.
Я имел ввиду именно то, что вы сказали. Автор этого вольного перевода пошел в лоб согласно теореме Баеса для получения posterior на параметры интегрировать по всему пространству параметров (считать 100500 регрессий)
Да почему же, вроде обычный belief propagation здесь должен сработать на ура.
Уууу, ну вы загнули, вы хотите BNN трактовать, как графическую модель и считать распределение выходов given input, я правильно понял? Да вы знаете толк :)
ЦПТ работает при числе сэмплов, стремящемся к бесконечности. Ни разу не видел, чтоб был у кого-то ансамбль больше, чем из десятка сетей, а обычно две-три-четыре, что почти наверное является слишком грубой аппроксимацией ЦПТ. Так что это таки надежда.
нейронные сети довольно просто обобщаются до байесовских или марковских
Правда, судя по всему вы всё-таки правы и конкретно в этих работах действительно сэмплируются параметры.
10-fold cross validation
Теорию можно сколько угодно обобщать, но считать машина вывод в графической модели будет до второго пришествия. Это просто непрактично.
И вообще говоря, это не интуитивный вопрос: почему ансамбли вообще работают? В реальной жизни вещи редко ведут себя таким образом: если у вас есть десять плохих молотков, гвоздь не станет забиваться лучше от того, что вы будете использовать их по очереди.
Байесовская нейронная сеть — потому что а почему бы и нет, черт возьми (часть 1)