Sivchenko_translate 24 окт в 09:17

BERT — это всего лишь одноэтапная диффузия текста

9 мин

1.9K

Машинное обучение * Natural Language Processing * Искусственный интеллектПрограммирование *

Перевод

+15

Комментарии 2

LinkToOS 24 окт в 11:34

Целью обучения декодерных моделей является прогнозирование следующего токена. На каждой позиции t нужно предсказать токен, который будет находиться на позиции t+1 с учётом всех токенов, предшествующих t и служащих контекстом. Для предсказания будущих значений используется только та информация, которая находится слева от рассматриваемого токена (процесс однонаправленный).

Контекстом здесь являются только предыдущие сгенерированные токены, или промп тоже?

vmkazakoff 27 окт в 12:51

И промпт, и все что попало в него без вашего прямого участия (системный промпт, поиск в сети, память, если она есть, ...)

Upd: и история все переписки, если это режим чата, тоже попадают в контекст

Зарегистрируйтесь на Хабре, чтобы оставить комментарий