Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Целью обучения декодерных моделей является прогнозирование следующего токена. На каждой позиции t нужно предсказать токен, который будет находиться на позиции t+1 с учётом всех токенов, предшествующих t и служащих контекстом. Для предсказания будущих значений используется только та информация, которая находится слева от рассматриваемого токена (процесс однонаправленный).
Контекстом здесь являются только предыдущие сгенерированные токены, или промп тоже?
BERT — это всего лишь одноэтапная диффузия текста