Viacheslav-hub20 янв в 07:00

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Средний

12 мин

5.8K

Искусственный интеллектМашинное обучение *

Туториал

Комментарии 5

Bardakan 20 янв в 09:20

Но как мы получили вектор запроса, если ранее вы считали только векторы для токенов? Для вычисления этого вектора существует матрица Wq, которая умножается на embed слова:

вы же сами сказали, что у вас на текущий момент есть только векторы токенов. Тогда откуда взялась матрица Wq?

Viacheslav-hub 20 янв в 09:38

матрицы Wq, Wk, Wv - это не данные, которые мы получаем из текста и считаем в моменте, а обучаемые параметры модели, которые хранятся в нейросети постоянно. То есть они уже известны заранее

Bardakan 20 янв в 13:39

подождите, тогда какие у них начальные значения? Мы же говорим об обучении, а не дообучении. Я так понял, что у вас на начальном этапе есть только некоторый датасет. Или нет?

Viacheslav-hub 20 янв в 14:23

мы говорим и не об обучении и не об дообучении) Мы говорим про процесс генерации токена у уже обученной модели (то есть про процесс который происходит при каждом обращении к модели). Изначально, матрицы имели случайные значения, которые дальше были правильно подобраны в процессе обучения (но мы этот этап не рассматриваем). Далее эти параметры не меняются. Они используются в процессе генерации каждого токена (то что собственно разбирали в статье). А вот вектор для токена рассчитывается каждый раз новый. Если нужно, могу уточнить еще подробнее

Resly34 14 мар в 18:45

на этом шаге смысл каждого токена (слова) перетекает к каждому другому слову в предложении.

Читал ночью, может пропустил, но все же.

На Attention не всегда "все токены вбирают смысл всех остальных токенов".

Есть разные архитектуры, но, насколько я помню, в том же GPT применяют Causal Mask. С маской токены "видят" только прошлые токены, но не следующие. (После softmax веса в Attention векторе обнуляются)

Она обязательно используется при обучении модели (Так как при генерации нужно предсказать токен только на основе предыдущих). И архитектура обычно сохраняется при генерации

P.S.

Видел информацию что claude использует Causal Mask только для генерируемых токенов, а токены ввода используются без маски. (Потенциально - получше понимание введенного контекста)

Введены токены
[Сегодня][Хорошая]

Сгенерированные токены
[Погода][В][Городе]

            Сегодня   хорошая   Погода    В    Городе
Сегодня     [  +         +        -       -      -  ]
хорошая     [  +         +        -       -      -  ]
Погода      [  +         +        +       -      -  ]
В           [  +         +        +       +      -  ]
Городе      [  +         +        +       +      +  ]

Зарегистрируйтесь на Хабре, чтобы оставить комментарий