Как стать автором
Обновить

Комментарии 4

1) А как для многомерной SoftMax получился график одномерной сигмойды?
2) Если функции потерь MSE и MAE принимают только положительные значения (т.к. квадрат и модуль) , каким образом корректируются веса, исходя из производной dL/dW если L всегда > 0?

Автору спасибо за статью. Сам новичок в данном вопросе и для себя нашел несколько хороших моментов (какие виды активаций бывают, про дропауты немного раньше по-другому представлял их назначение и особо спасибо за формулы с графиками) + сам на данный момент с нуля создал простенькую модель для определения IT-трендов по словам (написал на чистом Go без каких-либо внешних библиотек и т. д.), но для более глубокого понимания, какие есть подходы и сети в целом, данная статья мне дала пищи для дальнейших действий — автору спасибо!

Пожалуйста, не вводите людей в заблуждение, говоря, что на выходе softmax получаются вероятности.

Результатом softmax является вектор, значения которого удобно интерпретировать как вероятности, но вероятностным он не является: одного лишь суммирования всех значений в единицу и принадлежности каждого из значений отрезку [0, 1] ещё недостаточно, чтобы являться вероятностью.

А как ещё можно его интерпритировать?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации