Комментарии 5
>Как я покажу позже, оказалось, что результат работы сети с прямой связью — это основной фактор, определяющий то, как блок преобразует свои входные данные в выходные.
Более того - блоки внимания можно вообще убрать, заменив их на другие фидфорвард блоки. Существенно ни чего не изменится от этого)
Интересная статья. Насколько я понял, автор ведёт к тому, что где-то половина "трансформера" это обычная линейная апроксимация FF сетью. Но все же остаётся вторая половина, которая использует внимание для кодирования-декодирования. Так то и в reinforcement learning у "обычной" flat нейроной сети в конце может быть большая доля всех параметров, но это не отменяет факт того, что что бы её обучить, нужен RL подход
Работа и интерпретация показались мне интересными, хотел воспроизвести ваш результат, взял предложенный вами ноут https://github.com/spather/transformer-experiments/blob/master/nbs/models/transformer.ipynb
Запустил в коллаб. Ошибки.
Нет библиотек и прочего.
Подскажите есть ли готовый ноутбук, чтобы можно было воспроизвести ваши результаты?
Как языковая модель предсказывает следующий токен (часть 1)