Комментарии 3
Скажите, а текущую версию в каффе пробовали? Просто какой-то странный уж очень график получается у вас на последнем кадре. Не видел такого эффекта.
Тут можно много с чем поиграться для увеличения скорости сходимости, например различные optimizers ведут себя по разному. К примеру Adam часто сходится быстрее, чем SGD.
Или, например, функции активации. Существует целый зоопарк в семействе Relu => Elu, Prelu, LeakuRelu, etc, и авторы каждой утверждают, что их activation function точно лучше и часто оно так и есть. Мне нравиться использовать Elu.
Или использовать MaxOut layers.
Или попробовать другую архитектуру сети.
Или с аугментацией поиграться.
Кстати, то что при добавлении Batch Normalization сеть в память не влезает можно обойти уменьшив размер батча.
Или, например, функции активации. Существует целый зоопарк в семействе Relu => Elu, Prelu, LeakuRelu, etc, и авторы каждой утверждают, что их activation function точно лучше и часто оно так и есть. Мне нравиться использовать Elu.
Или использовать MaxOut layers.
Или попробовать другую архитектуру сети.
Или с аугментацией поиграться.
Кстати, то что при добавлении Batch Normalization сеть в память не влезает можно обойти уменьшив размер батча.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Batch Normalization для ускорения обучения нейронных сетей