
Паралич сети - это явление, при котором глубокие слои не обучаются. Это происходит из-за затухания градиента при обратном распространении ошибки. Затухание градиента может возникнуть из-за большой глубины сети или больших выходных значений.
Цель статьи - объяснить проблему, причины ее возникновения и показать несколько решений. Дополнительно статья связывает редкое понятие «паралича сети» и распространённое понятие «затухания градиента».