Комментарии 2
А что такое "репрезентация токена"?
Неплохой обзор! Хотел сделать несколько комментариев.
Вообще, сложно сказать, насколько предложенный механизм можно считать гибридом свертки и attention. Само понятие "внимания" довольно размыто, и можно под ним понимать всякое, но обычно кажется естественным воспринимать как некоторый взвешенный учетом информации от соседей.
Инволюция, предложенная в статье, - это частный случай *динамической свертки*, т.е зависящей от входных данных. В обычной свертке - ядро это некоторый не зависящий от входных данных тензор, который обновляется лишь в процессе градиентного спуска, а инволюция же - считается для каждого входа отдельно. В их статье в качестве функции, генерирующей свертки используется последовательность двух сверток 1x1 с сжатием посередине (для экономии числа операций и весов). Похожая идея, только с одной свёрткой и softmax
на выходе была предложена ранее в https://arxiv.org/pdf/1901.10430.pdf.
Вообще концепция разделения на быстрые веса, считающиеся для каждого примера на лету, и медленные, обновляемые градиентным спуском, была предложена когда-то Schidhuber - https://people.idsia.ch/~juergen/fast-weight-programmer-1991-transformer.html.
Возможно, достоинство этой архитектуры в том, что она дает новую мультипликативную нелинейность вида
которую сложно выразить через традиционные композиции сверток и активаций.
Involution: Attention is not what you need, или Как скрестить Self-Attention из NLP и Convolution в задачах CV