cydoroga 28 мая 2024 в 12:00

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

28 мин

17K

Блог компании ЯндексАлгоритмы*Машинное обучение*Искусственный интеллектNatural Language Processing*

+60

Комментарии 10

shabelskiy 28 мая 2024 в 12:17

классная статья! очень доходчиво и живо написано

DryLips 30 мая 2024 в 09:04

Жаль что не описали другие подходы, ORPO, KTO, SimPO

19blackadder97 31 мая 2024 в 10:59

Спасибо за интересную статью, захотелось сразу заботать наконец RL.

Кажется, что KL дивергенция должна быть вне знака матожидания в разделе про DPO, то есть минимизируемый функционал $\mathbb{E}_{\pi_{\theta}(s|a)} \Vert r_{\psi}(s|a) \Vert - \beta KL (\pi_{\theta}(s|a) | \pi_{SFT}(s|a))$ .

Матожидание по $(\pi_{\theta}(s|a)$ уже стоит по факту перед логарифмом в KL-дивергенции.

cydoroga 3 июн 2024 в 09:57

Добрый день! Вы правы, часто можно увидеть и такую запись.

Математически они эквивалентны, так как "удвоенное" матожидание не меняет значения: $\mathbf{E}_a \mathbf{E}_a f(a) = \mathbf{E}_a f(a)$

Для доказательств мы в итоге матожидания все равно объединяем.

Mozetronick 3 июн 2024 в 08:40

Поздравляю. Теперь ваш пост от 2013 года стал официальной службой поддержки YandexGPT.

https://habr.com/ru/companies/yandex/articles/165919/

BarakAdama 11 июн 2024 в 07:04

Там написано не это :)

Mozetronick 28 июн 2024 в 22:52

Ну, ты видишь куда меня линкует их Нейро по тексту "рекомендуется обратиться в службу поддержки"? То и скидываю.

BarakAdama 29 июн 2024 в 09:58

Это ссылки на источник цитируемой информации. А не ссылка на ресурс, о котором может говориться в цитате. Как на Википедии.

Kirili4ik 8 июн 2024 в 21:46

В итоге для DPO требуется датасет (такой же как для reward model, т.е. со сравнением ответов A>B), а для PPO только запросы. Не является ли это ощутимым преимуществом PPO, ведь раз нам нужны только запросы, то мы имеем кратно больше данных?

Или дело в том что при использовании PPO мы все равно "ограничены" знаниями reward model, обученной на тех же самых размеченных данных?

cydoroga 10 июн 2024 в 16:05

Для PPO попарная разметка тоже нужна для обучения reward model. Т.е. PPO в этом плане не дешевле DPO. Однако, в PPO мы во время обучения «просматриваем» больше текстов, тк мы обучаемся на тех текстах, которые генерируются на лету.

Как будто, это действительно преимущество, но вы совершенно правы - можно упереться в ограничения модели награды.

Консенсуса сегодня нет, но существуют относительно свежие работы от гугла например, где показывают, что online обучение лучше, чем offline (как в dpo).

https://arxiv.org/pdf/2405.08448

Зарегистрируйтесь на Хабре, чтобы оставить комментарий