Pull to refresh

Comments 17

В русском Samsung работать не хотите? :) Нам как раз нужны такие люди сейчас. Пишите в личку.
Не, меня терзают смутные сомненья — зачем самсунгу нейросети?
Спасибо, статья интересная. Только один вопрос, фраза «совсем обыкновенная нейронная сеть попросту не справляется с этой, казалось бы, несложной задачкой.» относится к нейронной сети со слоями с дополнительным единичным входом или нет?
Без дополнительного входа. Тоесть взять сеть, грубо говоря, из википедии, и дать ей такую задачу она не сможет с ней справиться вне зависимости от количества нейронов и слоёв. Лично для меня это было интересным и не очевидным открытием, показывающим, что симметризация задачи может породить больше проблем, чем решить.
А у вас bias только для входного слоя? Если да, то попробуйте его во всех слоях добавить.
Ну просто через эту идею проглядывает более общая задача, я её буду решать позже, сейчас меня в первую очередь интересовало как сделать, чтобы результат дальнейших улучшений сети был хорошо виден.
Согласен, но дело в том, что у дополнительного входа есть вполне себе сакраментальное назначение, что без него, практически, обычные нейронные сети нет смысла использовать :)
Кстати, а как вы для себя формулируете это назначение?
Интересно сравнить. Значение как я его понимаю я описал в своей прошлой статье, там, где описывается понятие «Удобство представления».
Честно, бегло просмотрел статью, на которую вы ссылаетесь, я не нашел то место, о котором вы говорите. На мой взгляд, единичный bias на входе к каждому слою сети позволяет смещать нули функций активации, что в свою очередь позволяет избежать чрезмерно больших и\или чрезмерно малых значений параметров сети при обучении и использовании, что, уже в свою очередь, позволяет избежать ряд проблем вычислительного плана.
Существует более общая формулировка задачи, позволяющая добиться того же самого. Функция активации может содержать в себе параметры, которые сами по себе являются обучаемыми. Плюс единичный вход — частный случай. Бывают и более интересные.

Моя трактовка такая. При отсутствии константы решение некоторых частных подзадач, встающих перед сетью, может оказаться чрезмерно сложным, для этого требуется очень специальная комбинация весов нейронов, на которую сети трудно, а в некоторых случаях невозможно, наткнуться самостоятельно. В данном случае это область похожих ненулевых ответов в окрестности нулевой точки. Но характер «неудобной» задачи, и способ с помощью которого задачу можно сделать удобной для сети, могут различаться.
Хорошо, что не прочитал вторую статью тогда, когда вы мне на неё ссылку скинули. :) Очень интересно, но если бы я её прочёл тогда, до всех экспериментов, так бы и не понял на чём накололись авторы и думал, что без претренеровки жизни не мила и слои не слоятся, особенно больше 5. :)
Sign up to leave a comment.

Articles