Комментарии 4
Но как мы получили вектор запроса, если ранее вы считали только векторы для токенов? Для вычисления этого вектора существует матрица Wq, которая умножается на embed слова:
вы же сами сказали, что у вас на текущий момент есть только векторы токенов. Тогда откуда взялась матрица Wq?
матрицы Wq, Wk, Wv - это не данные, которые мы получаем из текста и считаем в моменте, а обучаемые параметры модели, которые хранятся в нейросети постоянно. То есть они уже известны заранее
подождите, тогда какие у них начальные значения? Мы же говорим об обучении, а не дообучении. Я так понял, что у вас на начальном этапе есть только некоторый датасет. Или нет?
мы говорим и не об обучении и не об дообучении) Мы говорим про процесс генерации токена у уже обученной модели (то есть про процесс который происходит при каждом обращении к модели). Изначально, матрицы имели случайные значения, которые дальше были правильно подобраны в процессе обучения (но мы этот этап не рассматриваем). Далее эти параметры не меняются. Они используются в процессе генерации каждого токена (то что собственно разбирали в статье). А вот вектор для токена рассчитывается каждый раз новый. Если нужно, могу уточнить еще подробнее

Анатомия трансформеров: почему обычный Self-Attention больше не используют