
Авторы недавно нашумевшей на NeurIPS статьи Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction предложили новый способ авторегрессионной генерации изображений, выдающий результаты конкурирующие с диффузионными моделями. В архитектуре этой модели нельзя не заметить схожесть с обратными сверточными сетями, где каждый последующий слой из нейронов генерирует изображение все большего и большего масштаба. Аналогия эта показалась мне настолько интересной, что я подыскал примеры того, как архитектуры с attention в своей основе повторяют шаги эволюции классических нейронных сетей и полушуточный пример того как эта аналогия может натолкнуть на новые идеи.
Если присмотреться к механизмам внимания и остаточных связей, на которых строится вся архитектура трансформеров, то можно представить как каждый из них является аналогией взаимодействия нейронов в классической нейронной сети. Так, нейроны превращаются в токены, матрица весов превращается в обмен информацию через внимание, а сама по себе архитектура нейронной сети может быть описана маской матрицы внимания, описывающую направленный граф перемещения информации. И, если приглядеться, практически все архитектурные трюки обычных нейронных сетей уже так или иначе применяются в связке с трансформерами.
Vision Transformers выглядят один в один как самый наивный метод применения полносвязных нейронных сетей для классификации изображений. На входе каждый токен-нейрон получает информацию об одном патче, а следующие слои являются на основе обмена информацией между всеми токенами предыдущего слоя.
Идеи бутылочного горлышка автоэнкодеров используются для того, чтоб эффективно сжимать большой объем информации. К примеру, LongFormer и BigBird используют разреженные матрицы внимания с целью обучить нейронную сеть суммаризировать информацию и уменьшить стоимость обработки длинных текстов.
Ограничения нейронных сетей, позволяющие обмен информацией только для находящихся рядом нейронов, отражены в оптимизациях трансформеров для изображений и видео через ограничение возможных взаимодействий токенов в сети на взаимодействия только в вертикальных, горизонтальных или временных столбцах в пределах одного слоя.
Уже упомянутый авторегрессионный метод генерации изображений удивительно схож с обратными сверточными сетями.
Тут надо отметить еще два случая, когда связь есть, но аналогия не совсем корректна.
Вышедшая не так давно статья Tokenformer так и вовсе предлагает заменить два слоя полносвязной сети одним слоем attention. И хвастает, что эта архитектура позволяет решить проблему затухающих градиентов без применения batch/layer нормализации.
Многие методы CoT (цепочек размышлений) используемые в больших языковых моделях для рассуждений ветвятся, опираясь на одно и то же начало фразы, но не являются аналогами какой-то нейронной сети.
Как упражнение для себя, я попытался подыскать задачу, которая бы решалась по возможности самым разреженным графом - бинарным деревом или остовным графом. И, как ни удивительно, найти подобную игрушечную задачу довольно легко. Остовный граф является естественной структурой при построении иерархической кластеризации. Для кривых приближенных ломаными, довольно просто представить процесс последовательного упрощения через объединение двух соседних отрезков в один до тех пор, пока вся кривая не выродится в отрезок. Для поиска интересных кривых можно вдохновиться статьей 2014 года, использовавшей рекуррентные нейронные сети для генерации в том числе рукописного текста. Оригинальный датасет уже недоступен, но ему есть адекватная замена. И так, немного модифицировав nanogpt и поломав голову над позиционным кодированием, за выходные можно собрать генератор рукописного текста на основе трансформера!