Как стать автором
Обновить

Анализ подбора гиперпараметров при обучении нейронной сети прямого распространения — FNN (на примере MNIST)

Время на прочтение10 мин
Количество просмотров8.1K
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

Комментарии 5

У дропаута есть три важных нюанса (поправьте меня если что):

  1. Применяется с увеличением количества нейронов в связанном с ним слое

  2. Снижает переобучение, которого здесь, на мой взгляд, нет

  3. Дает дополнительные эффекты при наличии нескольких скрытых слоев

Это приводит к выводу о том, что для данной сети в условиях проведенного тестирования дропаут излишен. Выводы в статье о его роли в обучении косвенно подтверждают это.

Спасибо за комментарий )

Всё не как не могу понять, зачем нужна тестовая выборка, если есть валидационная? Понятно там на кегл, где тестовый набор закрыт, но дома то зачем?

Понимаю так:

С валидационной выборкой идет работа в процессе обучения, если от этого есть какая-то обратная связь. Например, уменьшаем шаг обучения, если 10 эпох на валидационной выборке нет улучшений. Или сохраняем набор коэффициентов, дающий лучший результат на валидационной выборке за этот процесс обучения.

А уже потом прогоняем через итоговый набор коэффициентов всю тестовую выборку, которую сеть ни разу не видела. И очень может быть, что на валидационной выборке точность близка к 100% или близко к ней, а на тестовой сильно меньше, например, 95%. А во многих классах задач важен не результат на валидационной выборке, который сетьможет шлифануть и до 100%, но перейти в переобученность, а важна обобщающая способность, то есть как сеть будет работать с похожими, но не известными ей данными заданного формата, и это как раз и проверяется на тестовой выборке.

Так сеть и валидационную выборку ни разу не видела, поэтому все ваши плюсы тестовой выборки так же применимы и к валидационной.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации