Комментарии 3
Зачем, вообще, использовать Relu, когда есть Gelu?
Gelu чаще используют в NLP. Тут же пример был для простоты вычислений и скорости. Задача CV решалась. Так что выбор не особо критичен в данном случае!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Mixture of Experts: когда нейросеть учится делегировать