Обновить

Комментарии 5

Но как мы получили вектор запроса, если ранее вы считали только векторы для токенов? Для вычисления этого вектора существует матрица Wq, которая умножается на embed слова:

вы же сами сказали, что у вас на текущий момент есть только векторы токенов. Тогда откуда взялась матрица Wq?

матрицы Wq, Wk, Wv - это не данные, которые мы получаем из текста и считаем в моменте, а обучаемые параметры модели, которые хранятся в нейросети постоянно. То есть они уже известны заранее

подождите, тогда какие у них начальные значения? Мы же говорим об обучении, а не дообучении. Я так понял, что у вас на начальном этапе есть только некоторый датасет. Или нет?

мы говорим и не об обучении и не об дообучении) Мы говорим про процесс генерации токена у уже обученной модели (то есть про процесс который происходит при каждом обращении к модели). Изначально, матрицы имели случайные значения, которые дальше были правильно подобраны в процессе обучения (но мы этот этап не рассматриваем). Далее эти параметры не меняются. Они используются в процессе генерации каждого токена (то что собственно разбирали в статье). А вот вектор для токена рассчитывается каждый раз новый. Если нужно, могу уточнить еще подробнее

на этом шаге смысл каждого токена (слова) перетекает к каждому другому слову в предложении.

Читал ночью, может пропустил, но все же.

На Attention не всегда "все токены вбирают смысл всех остальных токенов".

Есть разные архитектуры, но, насколько я помню, в том же GPT применяют Causal Mask. С маской токены "видят" только прошлые токены, но не следующие. (После softmax веса в Attention векторе обнуляются)

Она обязательно используется при обучении модели (Так как при генерации нужно предсказать токен только на основе предыдущих). И архитектура обычно сохраняется при генерации

P.S.

Видел информацию что claude использует Causal Mask только для генерируемых токенов, а токены ввода используются без маски. (Потенциально - получше понимание введенного контекста)

Введены токены
[Сегодня][Хорошая]

Сгенерированные токены
[Погода][В][Городе]

            Сегодня   хорошая   Погода    В    Городе
Сегодня     [  +         +        -       -      -  ]
хорошая     [  +         +        -       -      -  ]
Погода      [  +         +        +       -      -  ]
В           [  +         +        +       +      -  ]
Городе      [  +         +        +       +      +  ]


Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации