PatientZero Feb 12 2024 at 07:53

Как языковая модель предсказывает следующий токен (часть 1)

27 min

8.4K

Algorithms*Mathematics*Machine learning*Artificial Intelligence

Tutorial

Translation

+27

Comments 5

Kergan88 Feb 12 2024 at 19:20

>Как я покажу позже, оказалось, что результат работы сети с прямой связью — это основной фактор, определяющий то, как блок преобразует свои входные данные в выходные.

Более того - блоки внимания можно вообще убрать, заменив их на другие фидфорвард блоки. Существенно ни чего не изменится от этого)

AnthonyKot Feb 15 2024 at 20:20

Интересная статья. Насколько я понял, автор ведёт к тому, что где-то половина "трансформера" это обычная линейная апроксимация FF сетью. Но все же остаётся вторая половина, которая использует внимание для кодирования-декодирования. Так то и в reinforcement learning у "обычной" flat нейроной сети в конце может быть большая доля всех параметров, но это не отменяет факт того, что что бы её обучить, нужен RL подход

maxxxsudb Feb 16 2024 at 05:30

Работа и интерпретация показались мне интересными, хотел воспроизвести ваш результат, взял предложенный вами ноут https://github.com/spather/transformer-experiments/blob/master/nbs/models/transformer.ipynb
Запустил в коллаб. Ошибки.
Нет библиотек и прочего.
Подскажите есть ли готовый ноутбук, чтобы можно было воспроизвести ваши результаты?

PatientZero Feb 16 2024 at 07:50

Это переводная статья, попробуйте обратиться к автору по ссылке в шапке публикации.

maxxxsudb Feb 16 2024 at 13:33

Не обратил сразу внимания.
Да, уже обратился. Получил рекомендацию.