Уже много лет как нейронные сети не обучаются методом обратного распространения ошибки. Этот метод — примерно как пузырьковая сортировка по сравнению с quick sort.
1) Автор указывал, что это сделано в образовательных целях.
2) Пузырьковая сортировка имеет право на жизнь, ибо на малых N у нее сложность ниже быстрой сортировки.
Метод обратного распространения — это вычислительно эффективный способ получения производных, только и всего. Им можно вычислять как градиенты, так и якобианы, гессианы и их аппроксимации, причем для самых разных целевых функций, первого и второго порядка.
В упомянутом вами алгоритме Левенберга-Марквардта, а равно и в других популярных градиентных алгоритмах обучения нейронных сетей производные по весам вычисляются именно с помощью backpropagation! Поэтому его описание не может отклонить читателей от движения по направлению к новому и светлому. )
Что нам стоит сеть построить