Комментарии 4
Про глубину ResNet не совсем верно, 152 — не максимальная глубина, есть и ResNet-1001. Ну и по-моему стоило бы рассказать про Inception (фактически — дальнейшее развитие GoogleNet), DenseNet, ENet (тут скорее упор в оптимальный размер модели). Пусть даже и не шибко подробно.
Вот тут есть подробная реализация всех этапов свёрток простой сети на Си++. Нет там только объединения частей, но это как раз несложно.
>проблема взрывающегося градиента
>Решение очевидно — ограничить значение градиента, в противном случае — уменьшить его значение (нормировать). Такая техника называется «clipping».
Вот только это очень плохое решение… Особенно для ничем не ограниченного ReLU.
Batchnorm намного лучше справляется. (И ещё придумали SELU и другие self-normalizing units.)
>Решение очевидно — ограничить значение градиента, в противном случае — уменьшить его значение (нормировать). Такая техника называется «clipping».
Вот только это очень плохое решение… Особенно для ничем не ограниченного ReLU.
Batchnorm намного лучше справляется. (И ещё придумали SELU и другие self-normalizing units.)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Deep Learning: как это работает? Часть 3 — архитектуры CNN