Comments 7
Для рекуррентных нейронных сетей, обычно используются функции активации, такие как Tanh или LSTM.
Машинный перевод?
Я на всякий случай погуглил, нет такой функции активации, как LSTM. Это тип рекуррентных нейросетей
Нейронка пишет мемуары...
Спасибо за замечание.
В данном случае, имелось ввиду вот это Слой LSTM (keras.io). Но, думаю и вправду, будет логичнее убрать это)
Для рекуррентных нейронных сетей спокойно можно использовать не только tanh, но и обычную сигмоиду. Ведь они похожи, что прямо указано в описании первой
По сравнению со сигмоидальной функцией, гиперболический тангенс имеет более пологую кривую, что позволяет сети лучше распознавать сложные зависимости в данных
Они полностью взаимозаменяемы, т.к. th(x)=2σ(2x)-1, т.е. разница будет только в значениях весов (включая bias). Разницы в скорости вычисления градиента тоже нет: σ(1-σ) в одном случае и th2(x)-1 в другом.
Тут некритическая, но все же ошибка в формуле. В знаменателе должно быть не e^z_k, а e^z_j, т.е. формула должна выглядеть следующим образом: Softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{k} e^{z_j}}
Выбор слоя активации в нейронных сетях: как правильно выбрать для вашей задачи