@oomoo6 апр 2023 в 21:18

Выбор слоя активации в нейронных сетях: как правильно выбрать для вашей задачи

Средний

10 мин

77K

Машинное обучение * Искусственный интеллект

Из песочницы

Комментарии 7

@turboslon 7 апр 2023 в 01:56

Для рекуррентных нейронных сетей, обычно используются функции активации, такие как Tanh или LSTM.

Машинный перевод?

Я на всякий случай погуглил, нет такой функции активации, как LSTM. Это тип рекуррентных нейросетей

@Nansch 7 апр 2023 в 03:20

Нейронка пишет мемуары...

@oomoo 7 апр 2023 в 03:40

Спасибо за замечание.
В данном случае, имелось ввиду вот это Слой LSTM (keras.io). Но, думаю и вправду, будет логичнее убрать это)

@julicq 7 апр 2023 в 07:35

Для рекуррентных нейронных сетей спокойно можно использовать не только tanh, но и обычную сигмоиду. Ведь они похожи, что прямо указано в описании первой

@mobi 7 апр 2023 в 11:45

По сравнению со сигмоидальной функцией, гиперболический тангенс имеет более пологую кривую, что позволяет сети лучше распознавать сложные зависимости в данных

Они полностью взаимозаменяемы, т.к. th(x)=2σ(2x)-1, т.е. разница будет только в значениях весов (включая bias). Разницы в скорости вычисления градиента тоже нет: σ(1-σ) в одном случае и th²(x)-1 в другом.

@berng 10 апр 2023 в 03:54

Не совсем верно, почитайте про затухание градиента. Есть ньюансы, особенно в сетях более чем с 10-11 слоями. Tanh лучше сигмоиды, ReLU лучше tanh-а. Если конечно учить градиентным спуском. Для генетического алгоритма - без разницы, но безумно долго.

@Pellonezza 21 мар в 07:12

$Softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{k} e^{z_k}}$

Тут некритическая, но все же ошибка в формуле. В знаменателе должно быть не e^z_k, а e^z_j, т.е. формула должна выглядеть следующим образом: Softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{k} e^{z_j}}

Зарегистрируйтесь на Хабре, чтобы оставить комментарий