Комментарии 5
Но как мы получили вектор запроса, если ранее вы считали только векторы для токенов? Для вычисления этого вектора существует матрица Wq, которая умножается на embed слова:
вы же сами сказали, что у вас на текущий момент есть только векторы токенов. Тогда откуда взялась матрица Wq?
матрицы Wq, Wk, Wv - это не данные, которые мы получаем из текста и считаем в моменте, а обучаемые параметры модели, которые хранятся в нейросети постоянно. То есть они уже известны заранее
подождите, тогда какие у них начальные значения? Мы же говорим об обучении, а не дообучении. Я так понял, что у вас на начальном этапе есть только некоторый датасет. Или нет?
мы говорим и не об обучении и не об дообучении) Мы говорим про процесс генерации токена у уже обученной модели (то есть про процесс который происходит при каждом обращении к модели). Изначально, матрицы имели случайные значения, которые дальше были правильно подобраны в процессе обучения (но мы этот этап не рассматриваем). Далее эти параметры не меняются. Они используются в процессе генерации каждого токена (то что собственно разбирали в статье). А вот вектор для токена рассчитывается каждый раз новый. Если нужно, могу уточнить еще подробнее
на этом шаге смысл каждого токена (слова) перетекает к каждому другому слову в предложении.
Читал ночью, может пропустил, но все же.
На Attention не всегда "все токены вбирают смысл всех остальных токенов".
Есть разные архитектуры, но, насколько я помню, в том же GPT применяют Causal Mask. С маской токены "видят" только прошлые токены, но не следующие. (После softmax веса в Attention векторе обнуляются)
Она обязательно используется при обучении модели (Так как при генерации нужно предсказать токен только на основе предыдущих). И архитектура обычно сохраняется при генерации
P.S.
Видел информацию что claude использует Causal Mask только для генерируемых токенов, а токены ввода используются без маски. (Потенциально - получше понимание введенного контекста)
Введены токены
[Сегодня][Хорошая]
Сгенерированные токены
[Погода][В][Городе]
Сегодня хорошая Погода В Городе
Сегодня [ + + - - - ]
хорошая [ + + - - - ]
Погода [ + + + - - ]
В [ + + + + - ]
Городе [ + + + + + ]

Анатомия трансформеров: почему обычный Self-Attention больше не используют