Привет. Как и планировалось в
прошлом посте об ограниченных машинах Больцмана, в этом будет рассмотрено применение RBM для предобучения обыкновенной
многослойной сети прямого распространения. Такая сеть обычно обучается
алгоритмом обратного распространения ошибки, который зависит от многих параметров, и пока не существует точного алгоритма выбора этих самых параметров обучения, как и оптимальной архитектуры сети. Разработано множество эвристик, позволяющих сократить пространство поиска, а также методик оценки качества выбранных параметров (например,
кросс-валидация). Мало того, оказывается, и сам алгоритм обратного распространения не так уж хорош. Хотя
Румельхарт, Хинтон и Вильямс показали сходимость алгоритма обратного распространения (тут еще более
математическое доказательство сходимости), но есть небольшой нюанс: алгоритм сходится при бесконечно малых изменениях весов (т.е. при скорости обучения, стремящейся к нулю). И даже это не все. Как правило, этим алгоритмом обучают небольшие сети с одним или двумя скрытыми слоями из-за того, что эффект обучения
не доходит до дальних слоев. Далее мы поговорим подробнее о том, почему же
не доходит, и применим технику инициализации весов с помощью обученной RBM, которую разработал
Джеффри Хинтон.