Обновить

Комментарии 2

Целью обучения декодерных моделей является прогнозирование следующего токена. На каждой позиции t нужно предсказать токен, который будет находиться на позиции t+1 с учётом всех токенов, предшествующих t и служащих контекстом. Для предсказания будущих значений используется только та информация, которая находится слева от рассматриваемого токена (процесс однонаправленный).

Контекстом здесь являются только предыдущие сгенерированные токены, или промп тоже?

И промпт, и все что попало в него без вашего прямого участия (системный промпт, поиск в сети, память, если она есть, ...)

Upd: и история все переписки, если это режим чата, тоже попадают в контекст

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации