Описаный способ подстройки модификатора гораздо точнее определяется словом «инерция». Вес который «разогнался» в своем изменении медленно меняет скорость. Также надо не забывать, что полезны нулевые коэфициэнты для ускорения обучения. К примеру когда у вас шаг 0.01 и коэфциент инерции еще уменьшает это значение, то выгодно вообще остановить изменение веса на несколько итераций. При этом вычислений нужно производить меньше, соответственно скорость обсчета возрастает.
Цитата: «Если не вдаваться в математику, то можно сказать так, что алгоритм поощряет те веса (рост в рамках какой то размерности пространства весов) которые сохраняют свое направление относительно предыдущего момента времени, и штрафует тех, кто начинает метаться.»
Это и есть «инерция», если масса начинает менять свою скорость делает она это с «инерцией», тот самый ваш «штраф на тех кто мечется»
Так в формуле это и написано: дельта на ПРОШЛОМ шаге помноженная на дельту на этом шаге больше нуля, тогда бонус, иначе штраф. Меньше нуля она тогда, когда знак дельты поменялся. Т.е. «скорость» веса резко поменялась и штраф тут действует как некая «инерерция».
Локальная скорость обучения весов нейронов в алгоритме обратного распространения ошибки