Как стать автором
Обновить

Комментарии 2

А что такое "репрезентация токена"?

Неплохой обзор! Хотел сделать несколько комментариев.

Вообще, сложно сказать, насколько предложенный механизм можно считать гибридом свертки и attention. Само понятие "внимания" довольно размыто, и можно под ним понимать всякое, но обычно кажется естественным воспринимать как некоторый взвешенный учетом информации от соседей.

Инволюция, предложенная в статье, - это частный случай *динамической свертки*, т.е зависящей от входных данных. В обычной свертке - ядро это некоторый не зависящий от входных данных тензор, который обновляется лишь в процессе градиентного спуска, а инволюция же - считается для каждого входа отдельно. В их статье в качестве функции, генерирующей свертки используется последовательность двух сверток 1x1 с сжатием посередине (для экономии числа операций и весов). Похожая идея, только с одной свёрткой и softmax на выходе была предложена ранее в https://arxiv.org/pdf/1901.10430.pdf.

Вообще концепция разделения на быстрые веса, считающиеся для каждого примера на лету, и медленные, обновляемые градиентным спуском, была предложена когда-то Schidhuber - https://people.idsia.ch/~juergen/fast-weight-programmer-1991-transformer.html.

Возможно, достоинство этой архитектуры в том, что она дает новую мультипликативную нелинейность вида

f(x) \star g(x)

которую сложно выразить через традиционные композиции сверток и активаций.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории