Pull to refresh

Comments 8

В 2015 году исследователями из компании Microsoft была предложена архитектура под названием Residual neural network (или ResNet)....
Благодаря такому перекидыванию данных через слои, ResNet хорошо решает проблему затухающего градиента.

Нет :)

Из оригинальной статьи по ResNet:

Driven by the significance of depth, a question arises: Is learning better networks as easy as stacking more layers? An obstacle to answering this question was the notorious problem of vanishing/exploding gradients [1, 9], which hamper convergence from the beginning. This problem, however, has been largely addressed by normalized initialization [23, 9, 37, 13] and intermediate normalization layers [16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].

Они решали (и решили) проблему деградации точности, которая имеет иную причину. Безусловно верно, что shortcut connections помогают бэкпропу, безусловно затухающий градиент мешает учить глубокие сети, но skip connections в ResNet-ах к этому отношения не имеют.

Но, уверен, что это не страшно (пошел читать статью дальше).

Да :)

Как раз это и является основной причиной почему резнеты выстрелили. Чем больше слоев у сети, тем выше затуханте градиенты и поэтому было сложно учить очень глубокие сети.

Как раз резнеты и позволили обучать 50 и 100 слойные сети из-за уменьшения эффекта затухания градиента, и хоть это не было указано авторами, многие исследования после показали что это так.

Например: https://arxiv.org/abs/1702.08591

I7p9H9только что

Уже даже в Википедии есть про это:

https://en.m.wikipedia.org/wiki/Vanishing_gradient_problem#:~:text=One of the newest and,part of the network architecture.

P.S. кстати, привет :)

Ну это тиражируемое заблуждение. Затухание градиента не является причиной деградации точности, и при наличии слоев нормализации не усиливается с ростом глубины сети.

А вот статью гляну, не попадалась, спасибо

Я кстати где-то уже правил вики на этот счёт, но похоже нужно выкорчевать с корнем это заблуждение:)

Спасибо за ваш комментарий! Пока что оставлю как есть, потому что для меня выстроена логичная цепочка. Плюс, в тесте не говорится, что ResNet ставили себе цель решить проблему затухающего градиента (хотя из текста так может показаться), однако, как следствие, решили. Я обдумаю как поправить этот момент. Еще раз, спасибо!

Sign up to leave a comment.

Articles