я прочитал оригинальную статью - аж 2015 года! Они не выясняют решают ли слои нормализации проблему градиента, они лишь приводят ссылки где на это есть намеки. Статья от дипмайнда вышла на целых 4 года позже что для этой области просто бездна времени - там даны как теоретические так и практические результаты, который явно показывают что слои нормализации эту проблему не решают. Более того они даже делают эту проблему хуже - смотрите теорему 3.9 и 3.10
вы опять переводите тему на якобы мое несуществующее противостояние статье тема - ваши неверные утверждения на контрпримеры которым я привел ссылки Мне вот даже интересно стало - а у вас то самого есть какие то работы в этой области? цитирования?
"Да, не означает." - вы писали обратное " может мы достигли оптимума?" - не меняйте тему К проблеме деградации точности нет никаких претензий Претензии есть к вашему неверному утверждению про неправильный ответ на интервью и второму неверному утверждению про то что нормализция должна решать эту проблему градиента По поводу собеседования - вы стали играть в игру "докопайся до буквального смысла слов". Если вы задаете это вопрос на интервью, вы используете ответ для оценки кандидата. Конечно я не имел в виду что это ваш единственный критерий, зачем передергивать?! Но это одни из критериев, по которому вы, имея неверные представления, принимаете решения. И второе - мне просто не нравятся непрофессиональные посты от людей которые не разбираются в теме про которую пишут
можно сколько угодно писать что черное это белое но белым оно не станет. Вы почему то пытаетесь перевести тему на деградацию точности хотя я конкретно написал что вы ошибаетесь насчет градиента и привел ссылку на множественные контрпримеры вашим неверным утверждениям Жаль что на хабре нет нормальной модерации - вы пишете ерунду и не разбираетесь в вопросе.
это равносильные утверждения "если вдуматься, наличие слоев нормализации должно позволять градиенту течь по сети без затухания" - опять, и с чего бы это? Не интуитивно, не математически. Перемасштабирование выходов слоя путем нахождения среднего с отклонения из весов только исходя из текущего батча, в котором распределение может быть в принципе каким угодно, и поднастройка с помощью 2 констант - как извините это решает проблему?! Я привел ссылку на статью со множеством экспериментов как в самой статье, так и в ссылках из нее. Вы пишите про - возьмите такую то сетку и провертье градиент. Я больше чем уверен что вы просто считаете усредненную норму градиента по слоям что никак не меняет того факта что по подсету дименшенов градиент может быть околонулевой. Как котр-пример вашему утверждению смотрите " The Nonlinearity Coefficient - Predicting Overfitting in Deep Neural Networks" с выводом - "empirically noted gradient explosion happens in deep batchnorm networks with various nonlinearities" то что в вашем случае он "течет" не означает что он течет всегда при наличии нормализации
Про VGG ничего не знаю, занимаюсь только нлп Может она не достаточно глубокая, нормализация сильно сглаживает но не справляется 100% с эффектом градиента. Если у вас активация ноль то по смыслу она именно ноль и дальше градиент не должен идти, другой вопрос насколько это вредит всей архитектуре и насколько она может подстроиться со всей своей избыточностью. Претензия не к статье а к вашему стейтменту в посте про то что нормализация полностью решает проблему градиента. "А ответ таки является неправильным" - вы можете и дальше продолжать своим неуместным академизмом рубить хороших кандидатов дальше. Ответ вполне приемлемый. Я несколько лет работал в AI ресерче в фаанге, один из стандартных вопросов спрашиваемый многими и мной в том числе, такой ответ был допустим. Отправляйте своих кандидатов "неправильно" ответивших на этот вопрос нам.
" если вдуматься, наличие слоев нормализации должно позволять градиенту течь по сети без затухания " - да, если вдуматься, то это совсем не так. От того что вы в среднем масштабируете выходы и добавляете сдвиг проблема того что все равно будут очень высокие/низкие значения градиента по крайней мере для определенных дименшенов не решается. Они(слои нормализации) позволяют снизить эффект но полностью не избавляют от проблемы. Поэтому, ответ про скип коннекшены и проблему градиента не "не верен" а не конца точен.
я прочитал оригинальную статью - аж 2015 года!
Они не выясняют решают ли слои нормализации проблему градиента, они лишь приводят ссылки где на это есть намеки.
Статья от дипмайнда вышла на целых 4 года позже что для этой области просто бездна времени - там даны как теоретические так и практические результаты, который явно показывают что слои нормализации эту проблему не решают.
Более того они даже делают эту проблему хуже - смотрите теорему 3.9 и 3.10
вы опять переводите тему на якобы мое несуществующее противостояние статье
тема - ваши неверные утверждения на контрпримеры которым я привел ссылки
Мне вот даже интересно стало - а у вас то самого есть какие то работы в этой области? цитирования?
"Да, не означает." - вы писали обратное
" может мы достигли оптимума?" - не меняйте тему
К проблеме деградации точности нет никаких претензий
Претензии есть к вашему неверному утверждению про неправильный ответ на интервью
и второму неверному утверждению про то что нормализция должна решать эту проблему градиента
По поводу собеседования - вы стали играть в игру "докопайся до буквального смысла слов".
Если вы задаете это вопрос на интервью, вы используете ответ для оценки кандидата. Конечно я не имел в виду что это ваш единственный критерий, зачем передергивать?!
Но это одни из критериев, по которому вы, имея неверные представления, принимаете решения.
И второе - мне просто не нравятся непрофессиональные посты от людей которые не разбираются в теме про которую пишут
можно сколько угодно писать что черное это белое но белым оно не станет.
Вы почему то пытаетесь перевести тему на деградацию точности хотя я конкретно написал что вы ошибаетесь насчет градиента и привел ссылку на множественные контрпримеры вашим неверным утверждениям
Жаль что на хабре нет нормальной модерации - вы пишете ерунду и не разбираетесь в вопросе.
да, читайте статью от дипмайнда
зацепило ваше неправильное утверждение о "неправильном ответе"
это равносильные утверждения
"если вдуматься, наличие слоев нормализации должно позволять градиенту течь по сети без затухания" - опять, и с чего бы это? Не интуитивно, не математически. Перемасштабирование выходов слоя путем нахождения среднего с отклонения из весов только исходя из текущего батча, в котором распределение может быть в принципе каким угодно, и поднастройка с помощью 2 констант - как извините это решает проблему?!
Я привел ссылку на статью со множеством экспериментов как в самой статье, так и в ссылках из нее.
Вы пишите про - возьмите такую то сетку и провертье градиент. Я больше чем уверен что вы просто считаете усредненную норму градиента по слоям что никак не меняет того факта что по подсету дименшенов градиент может быть околонулевой.
Как котр-пример вашему утверждению смотрите " The Nonlinearity Coefficient - Predicting Overfitting in Deep Neural Networks"
с выводом - "empirically noted gradient explosion happens in
deep batchnorm networks with various nonlinearities"
то что в вашем случае он "течет" не означает что он течет всегда при наличии нормализации
еще раз - я не работаю с вижн сетками
мой опыт только с нлп моделями
наиболее популярный ответ является правильным но не полным
И кстати вот вам интересное чтиво https://arxiv.org/pdf/1902.08129.pdf в догонку про "неправильный ответ"
Про VGG ничего не знаю, занимаюсь только нлп
Может она не достаточно глубокая, нормализация сильно сглаживает но не справляется 100% с эффектом градиента.
Если у вас активация ноль то по смыслу она именно ноль и дальше градиент не должен идти, другой вопрос насколько это вредит всей архитектуре и насколько она может подстроиться со всей своей избыточностью.
Претензия не к статье а к вашему стейтменту в посте про то что нормализация полностью решает проблему градиента.
"А ответ таки является неправильным" - вы можете и дальше продолжать своим неуместным академизмом рубить хороших кандидатов дальше. Ответ вполне приемлемый.
Я несколько лет работал в AI ресерче в фаанге, один из стандартных вопросов спрашиваемый многими и мной в том числе, такой ответ был допустим.
Отправляйте своих кандидатов "неправильно" ответивших на этот вопрос нам.
" если вдуматься, наличие слоев нормализации должно позволять градиенту течь по сети без затухания " - да, если вдуматься, то это совсем не так. От того что вы в среднем масштабируете выходы и добавляете сдвиг проблема того что все равно будут очень высокие/низкие значения градиента по крайней мере для определенных дименшенов не решается.
Они(слои нормализации) позволяют снизить эффект но полностью не избавляют от проблемы. Поэтому, ответ про скип коннекшены и проблему градиента не "не верен" а не конца точен.