Обновить
0
0

Пользователь

Отправить сообщение

я прочитал оригинальную статью - аж 2015 года!
Они не выясняют решают ли слои нормализации проблему градиента, они лишь приводят ссылки где на это есть намеки.
Статья от дипмайнда вышла на целых 4 года позже что для этой области просто бездна времени - там даны как теоретические так и практические результаты, который явно показывают что слои нормализации эту проблему не решают.
Более того они даже делают эту проблему хуже - смотрите теорему 3.9 и 3.10

вы опять переводите тему на якобы мое несуществующее противостояние статье
тема - ваши неверные утверждения на контрпримеры которым я привел ссылки
Мне вот даже интересно стало - а у вас то самого есть какие то работы в этой области? цитирования?

"Да, не означает." - вы писали обратное
" может мы достигли оптимума?" - не меняйте тему
К проблеме деградации точности нет никаких претензий
Претензии есть к вашему неверному утверждению про неправильный ответ на интервью
и второму неверному утверждению про то что нормализция должна решать эту проблему градиента
По поводу собеседования - вы стали играть в игру "докопайся до буквального смысла слов".
Если вы задаете это вопрос на интервью, вы используете ответ для оценки кандидата. Конечно я не имел в виду что это ваш единственный критерий, зачем передергивать?!
Но это одни из критериев, по которому вы, имея неверные представления, принимаете решения.
И второе - мне просто не нравятся непрофессиональные посты от людей которые не разбираются в теме про которую пишут

можно сколько угодно писать что черное это белое но белым оно не станет.
Вы почему то пытаетесь перевести тему на деградацию точности хотя я конкретно написал что вы ошибаетесь насчет градиента и привел ссылку на множественные контрпримеры вашим неверным утверждениям
Жаль что на хабре нет нормальной модерации - вы пишете ерунду и не разбираетесь в вопросе.

да, читайте статью от дипмайнда

зацепило ваше неправильное утверждение о "неправильном ответе"

это равносильные утверждения
"если вдуматься, наличие слоев нормализации должно позволять градиенту течь по сети без затухания" - опять, и с чего бы это? Не интуитивно, не математически. Перемасштабирование выходов слоя путем нахождения среднего с отклонения из весов только исходя из текущего батча, в котором распределение может быть в принципе каким угодно, и поднастройка с помощью 2 констант - как извините это решает проблему?!
Я привел ссылку на статью со множеством экспериментов как в самой статье, так и в ссылках из нее.
Вы пишите про - возьмите такую то сетку и провертье градиент. Я больше чем уверен что вы просто считаете усредненную норму градиента по слоям что никак не меняет того факта что по подсету дименшенов градиент может быть околонулевой.
Как котр-пример вашему утверждению смотрите " The Nonlinearity Coefficient - Predicting Overfitting in Deep Neural Networks"
с выводом - "empirically noted gradient explosion happens in
deep batchnorm networks with various nonlinearities"
то что в вашем случае он "течет" не означает что он течет всегда при наличии нормализации

еще раз - я не работаю с вижн сетками
мой опыт только с нлп моделями

наиболее популярный ответ является правильным но не полным

И кстати вот вам интересное чтиво https://arxiv.org/pdf/1902.08129.pdf в догонку про "неправильный ответ"

Про VGG ничего не знаю, занимаюсь только нлп
Может она не достаточно глубокая, нормализация сильно сглаживает но не справляется 100% с эффектом градиента.
Если у вас активация ноль то по смыслу она именно ноль и дальше градиент не должен идти, другой вопрос насколько это вредит всей архитектуре и насколько она может подстроиться со всей своей избыточностью.
Претензия не к статье а к вашему стейтменту в посте про то что нормализация полностью решает проблему градиента.
"А ответ таки является неправильным" - вы можете и дальше продолжать своим неуместным академизмом рубить хороших кандидатов дальше. Ответ вполне приемлемый.
Я несколько лет работал в AI ресерче в фаанге, один из стандартных вопросов спрашиваемый многими и мной в том числе, такой ответ был допустим.
Отправляйте своих кандидатов "неправильно" ответивших на этот вопрос нам.

" если вдуматься, наличие слоев нормализации должно позволять градиенту течь по сети без затухания " - да, если вдуматься, то это совсем не так. От того что вы в среднем масштабируете выходы и добавляете сдвиг проблема того что все равно будут очень высокие/низкие значения градиента по крайней мере для определенных дименшенов не решается.
Они(слои нормализации) позволяют снизить эффект но полностью не избавляют от проблемы. Поэтому, ответ про скип коннекшены и проблему градиента не "не верен" а не конца точен.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность