Search
Write a publication
Pull to refresh

Comments 7

Для рекуррентных нейронных сетей, обычно используются функции активации, такие как Tanh или LSTM.

Машинный перевод?

Я на всякий случай погуглил, нет такой функции активации, как LSTM. Это тип рекуррентных нейросетей

Нейронка пишет мемуары...

Спасибо за замечание.
В данном случае, имелось ввиду вот это Слой LSTM (keras.io). Но, думаю и вправду, будет логичнее убрать это)

Для рекуррентных нейронных сетей спокойно можно использовать не только tanh, но и обычную сигмоиду. Ведь они похожи, что прямо указано в описании первой

По сравнению со сигмоидальной функцией, гиперболический тангенс имеет более пологую кривую, что позволяет сети лучше распознавать сложные зависимости в данных

Они полностью взаимозаменяемы, т.к. th(x)=2σ(2x)-1, т.е. разница будет только в значениях весов (включая bias). Разницы в скорости вычисления градиента тоже нет: σ(1-σ) в одном случае и th2(x)-1 в другом.

Не совсем верно, почитайте про затухание градиента. Есть ньюансы, особенно в сетях более чем с 10-11 слоями. Tanh лучше сигмоиды, ReLU лучше tanh-а. Если конечно учить градиентным спуском. Для генетического алгоритма - без разницы, но безумно долго.

Softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{k} e^{z_k}}

Тут некритическая, но все же ошибка в формуле. В знаменателе должно быть не e^z_k, а e^z_j, т.е. формула должна выглядеть следующим образом: Softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{k} e^{z_j}}

Sign up to leave a comment.

Articles