Comments 8
В 2015 году исследователями из компании Microsoft была предложена архитектура под названием Residual neural network (или ResNet)....
Благодаря такому перекидыванию данных через слои, ResNet хорошо решает проблему затухающего градиента.
Нет :)
Из оригинальной статьи по ResNet:
Driven by the significance of depth, a question arises: Is learning better networks as easy as stacking more layers? An obstacle to answering this question was the notorious problem of vanishing/exploding gradients [1, 9], which hamper convergence from the beginning. This problem, however, has been largely addressed by normalized initialization [23, 9, 37, 13] and intermediate normalization layers [16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].
Они решали (и решили) проблему деградации точности, которая имеет иную причину. Безусловно верно, что shortcut connections помогают бэкпропу, безусловно затухающий градиент мешает учить глубокие сети, но skip connections в ResNet-ах к этому отношения не имеют.
Но, уверен, что это не страшно (пошел читать статью дальше).
Да :)
Как раз это и является основной причиной почему резнеты выстрелили. Чем больше слоев у сети, тем выше затуханте градиенты и поэтому было сложно учить очень глубокие сети.
Как раз резнеты и позволили обучать 50 и 100 слойные сети из-за уменьшения эффекта затухания градиента, и хоть это не было указано авторами, многие исследования после показали что это так.
Например: https://arxiv.org/abs/1702.08591
Уже даже в Википедии есть про это:
P.S. кстати, привет :)
Уже даже в Википедии есть про это:
Спасибо за ваш комментарий! Пока что оставлю как есть, потому что для меня выстроена логичная цепочка. Плюс, в тесте не говорится, что ResNet ставили себе цель решить проблему затухающего градиента (хотя из текста так может показаться), однако, как следствие, решили. Я обдумаю как поправить этот момент. Еще раз, спасибо!
Neural ODE