2017. Тут даже дело не в механизме, не в архитектуре. Тут дело в математике, а именно в tanh и сигмоида. Этот подход применяется в TABNET. Над этим сейчас работаю, меня больше это интересовало. А перевод решил опубликовать, может кому интересно будет. Спасибо.
Языковое моделирование с помощью управляемых сверточных сетей