Comments 4
Batch Normalization после каждого слоя, Dropout с вероятностью 0.2 и оптимизатора Adam
Сколько им лет уже, больше 10, наверно. Неужели ничего нового больше не появилось? я бы почитал о новых техниках лучше.
"Progressive Layer Growth и Pruning оказались полезными для регулировки сложности модели, помогая избежать переобучения". Что скажете, если посмотреть на два последних графика? Там loss train выше loss val и, аналогично, для acc. Я по этим графикам вижу что процесс обучения явно аномальный
"Dropout с вероятностью 0.2". Поясните, что Вы понимаете под вероятностью. Для Dropout нет понятия вероятности. Это доля!!!
"Надеемся, что эта статья поможет вам глубже понять процесс оптимизации CNN и применять его на практике ". Куда уж глубже, дальше некуда
Любой дурак сможет обучить модель с точностью 70-80%, Вы бы лучше показали, как точность увеличить до 90%, не говоря уже до идеальных 96,5% по cifar-10
Глубокая оптимизация сверточных нейронных сетей: Анализ методов улучшения модели на примере CIFAR-10