Комментарии 3
Первый полностью связанный слой
Может все же лучше устоявшееся: полносвязный слой?
Кроме того, он ни разу не полносвязный, а вполне себе сверточный. ) 
Да — он здесь используется не как свертка, а скорее как энкодер, для создания эмбендинга в общем пространстве для каждого из «кусочков», но тем не менее — он не полносвязный!
На картинке, кстати, правильно: Per-patch Fully-connected.

Да — он здесь используется не как свертка, а скорее как энкодер, для создания эмбендинга в общем пространстве для каждого из «кусочков», но тем не менее — он не полносвязный!
На картинке, кстати, правильно: Per-patch Fully-connected.
Формально, можно реализовать с помощью де-факто полносвязного слоя, если вытянуть патчи вдоль оси каналов. Тогда это получится применение Dense вдоль последней оси (для channel mixing надо будет транспонировать по последним двум осям). Хм… а Dense, применяемый вдоль одной из осей многомерного тензора можно продолжать считать полносвязным или нет? :-\
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Google выпускает MLP-Mixer: MLP архитектуру для компьютерного зрения