Comments / Profile of Siarshai / Habr

Павел Садовников @Siarshai

Программист

Siarshai Jan 11 2017 at 05:07

C SGD вы описали learning rate decay. Тут я согласен: действительно хороший способ менять параметры сети во время обучения. Но суть прочих алгоритмов в том, что они автоматически настраивают скорость обучения (ещё одна перспектива на то, зачем нужен импульс). Я как то пробовал делать learning rate decay на Нестерове — это никак не сказалось на результатах сети.

Насчёт гирлянд, как на картинке: я, опять таки, согласен с итеративным способом обучения (занимался им и получил хорошие результаты), но не пойму причём тут эволюционные алгоритмы.

Впрочем, чего тут болтать — тут экспериментировать надо. Может, затухание скорости обучения действительно работает и не только на SGD, и мне просто тогда попались неудачные параметры сети или датасет с маленьким количеством минимумов/седловых точек.

Look

Методы оптимизации нейронных сетей

Siarshai Jan 10 2017 at 23:13

Менять параметры налету — довольно странно. Если сеть уже сошлась в какой-то минимум, а затем мы немного поменяли параметр, скорее всего она так и останется в этом минимуме. См. мои размышления в статье о том, как ведёт себя в минимуме Нестеров. Если у него в минимуме поменять гамму — он так и останется в этой точке, ведь ему неоткуда будет набрать скорость. Да и если обучать сеть с одними параметрами, затем изменить параметры, после чего продолжить обучать сеть — и получить какой-то хороший результат — это совсем не то же самое, что обучать сеть сразу со вторыми параметрами. По-хорошему, придётся повторять всю историю параметров.

Look

Методы оптимизации нейронных сетей

Siarshai Jan 10 2017 at 22:45

Представьте себе количество параметров:

Размер minibatch
Алгоритм обучения
Параметры, которые входят в алгоритм обучения. Как минимум learning rate: 1-5
Регуляризация L1, L2, шум, ещё что-нибудь: 3-5
Количество слоёв и нейронов в них. Тут можно очень здорово сузить количество вариантов, но всё равно это минимум два параметра: «толщина» и «глубина»
Функции активации
Если обучаем CNN, то размер окон свёртки и пулинга
Если обучаем ансамбль, то размер ансамбля и способы его объединения
Много всякой специфичной фигни

Даже если зафиксировать большую часть параметров (скажем, выкинем параметры отвечающие за архитектуру сети, а не за обучение), то всё равно будет параметров 5-10. Учтите, что сеть при обучении может засесть в плохом или хорошем локальном минимуме, поэтому хорошо бы её обучать хотя бы раза три и брать среднюю точность как fitting factor. Мне кажется, описанному эволюционному алгоритму понадобится итераций 50, чтобы сойтись хоть куда-нибудь (а вообще больше). Если предположить, что NN у нас несложная, и её обучение занимает пять минут, то 3*5*50 = 750 = 12.5 часов. Если же в меру сложная — час — то 3*60*50 = 9000 = 150 часов = 6 дней.

Итог: хорошо для экспериментирования на MNIST, плохо на практике, если у вас совершенно случайно нет вычислительного кластера.

Look

Методы оптимизации нейронных сетей

Siarshai Jan 10 2017 at 13:28

Выше есть комментарии про обучение нейронной сети при помощи другой нейронной сети. Если же вы про подбор параметров при помощи другой сети или какого-то алгоритма — это жутко долго.

Look

Методы оптимизации нейронных сетей

Siarshai Jan 10 2017 at 13:26

Просто скопировать веса нейронной сети — действительно просто, наверное, я погорячился, сказав, что это так уж сильно замедляет обучение. Но часто они расположены не в оперативной памяти, а в GPU. Если сеть большая, их хорошо бы сбросить из RAM на диск.

Look

Методы оптимизации нейронных сетей

Siarshai Jan 9 2017 at 22:33

В статье указано, что при некоторых параметрах оптимизаторы могут выскакивать из глобального минимума, и сказано что это проблема. Почему? Разве нельзя просто запоминать, где был достигнут минимум функции ошибок, и возвращаться туда?

Разумеется, можно. Так обычно и поступают, это называется обучение с возвратами. К сожалению, это сильно замедляет обучение, т.к. каждую эпоху приходится сохранять всю сеть. Этот приём не относится напрямую к оптимизаторам, его же используют и в других случаях, когда ошибка на валидационной выборке может возрастать.

И ещё интересно, применяются ли для обучения НС какие-то методы непохожие на модификацию SGD? Имитации отжига, или ещё какие-нибудь необычные?

Для имитации отжига слишком много параметров. Из интересного: RBM, но это уже не обычная нейронная сеть прямого распространения.

Look

Методы оптимизации нейронных сетей

Siarshai Jan 6 2017 at 17:30

Все вышеописанные алгоритмы также поддерживают обучение minibatch-обучение

Look

Методы оптимизации нейронных сетей

Siarshai Jan 6 2017 at 09:25

Nesterov более подвержен застреванию в локальном минимуме, чем SGD.

С чего бы? Действительно, сходимость всех эти оптимизаторов к глобальному минимуму (включая SGD) доказана только в случае выпуклых функций. Но у ванильного SGD вообще нет никаких методов преодолевания «бугров» на пути, на то он и ванильный. Как по мне, так он больше всех подвержен застреванию в локальных минимумах.

Look

Методы оптимизации нейронных сетей

Siarshai Jan 5 2017 at 13:05

Хм, «Сорян, сайт временно на реконструкции»

Look

Методы оптимизации нейронных сетей

Siarshai Jan 4 2017 at 21:19

Спасибо. Действительно, хорошее замечание насчёт седловых точек.

Look

Методы оптимизации нейронных сетей

Siarshai Jan 4 2017 at 17:00

Так не формализуется это дело толком. Для этого нужно наложить какие-то ограничения на функцию потерь, а она меняется от задачи к задаче, от сети к сети, от нелинейности к нелинейности.
Это, конечно, поспособствовало бы прорыву в AI, но есть гораздо более важные вещи.

Look

Нелокальный алгоритм для сглаживания изображений

Siarshai Dec 15 2015 at 16:45

Да, наверное бы работало хорошо, на соседних кадрах видео обычно много похожих элементов. Проблема в производительности: получается мы увеличиваем количество пикселов в m раз, где m — сколько кадров за раз мы берём.

Look