cydoroga May 28 at 12:00

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

28 min

12K

Яндекс corporate blogAlgorithms*Machine learning*Artificial IntelligenceNatural Language Processing*

+60

Comments 10

shabelskiy May 28 at 12:17

классная статья! очень доходчиво и живо написано

DryLips May 30 at 09:04

Жаль что не описали другие подходы, ORPO, KTO, SimPO

19blackadder97 May 31 at 10:59

Спасибо за интересную статью, захотелось сразу заботать наконец RL.

Кажется, что KL дивергенция должна быть вне знака матожидания в разделе про DPO, то есть минимизируемый функционал $\mathbb{E}_{\pi_{\theta}(s|a)} \Vert r_{\psi}(s|a) \Vert - \beta KL (\pi_{\theta}(s|a) | \pi_{SFT}(s|a))$ .

Матожидание по $(\pi_{\theta}(s|a)$ уже стоит по факту перед логарифмом в KL-дивергенции.

cydoroga Jun 3 at 09:57

Добрый день! Вы правы, часто можно увидеть и такую запись.

Математически они эквивалентны, так как "удвоенное" матожидание не меняет значения: $\mathbf{E}_a \mathbf{E}_a f(a) = \mathbf{E}_a f(a)$

Для доказательств мы в итоге матожидания все равно объединяем.

Mozetronick Jun 3 at 08:40

Поздравляю. Теперь ваш пост от 2013 года стал официальной службой поддержки YandexGPT.

https://habr.com/ru/companies/yandex/articles/165919/

BarakAdama Jun 11 at 07:04

Там написано не это :)

Mozetronick Jun 28 at 22:52

Ну, ты видишь куда меня линкует их Нейро по тексту "рекомендуется обратиться в службу поддержки"? То и скидываю.

BarakAdama Jun 29 at 09:58

Это ссылки на источник цитируемой информации. А не ссылка на ресурс, о котором может говориться в цитате. Как на Википедии.

Kirili4ik Jun 8 at 21:46

В итоге для DPO требуется датасет (такой же как для reward model, т.е. со сравнением ответов A>B), а для PPO только запросы. Не является ли это ощутимым преимуществом PPO, ведь раз нам нужны только запросы, то мы имеем кратно больше данных?

Или дело в том что при использовании PPO мы все равно "ограничены" знаниями reward model, обученной на тех же самых размеченных данных?

cydoroga Jun 10 at 16:05

Для PPO попарная разметка тоже нужна для обучения reward model. Т.е. PPO в этом плане не дешевле DPO. Однако, в PPO мы во время обучения «просматриваем» больше текстов, тк мы обучаемся на тех текстах, которые генерируются на лету.

Как будто, это действительно преимущество, но вы совершенно правы - можно упереться в ограничения модели награды.

Консенсуса сегодня нет, но существуют относительно свежие работы от гугла например, где показывают, что online обучение лучше, чем offline (как в dpo).

https://arxiv.org/pdf/2405.08448