Pull to refresh

Comments 10

классная статья! очень доходчиво и живо написано

Жаль что не описали другие подходы, ORPO, KTO, SimPO

Спасибо за интересную статью, захотелось сразу заботать наконец RL.

Кажется, что KL дивергенция должна быть вне знака матожидания в разделе про DPO, то есть минимизируемый функционал \mathbb{E}_{\pi_{\theta}(s|a)} \Vert r_{\psi}(s|a) \Vert - \beta KL (\pi_{\theta}(s|a) | \pi_{SFT}(s|a)).

Матожидание по (\pi_{\theta}(s|a) уже стоит по факту перед логарифмом в KL-дивергенции.

Добрый день! Вы правы, часто можно увидеть и такую запись.

Математически они эквивалентны, так как "удвоенное" матожидание не меняет значения: \mathbf{E}_a \mathbf{E}_a f(a) = \mathbf{E}_a f(a)

Для доказательств мы в итоге матожидания все равно объединяем.

Там написано не это :)

Ну, ты видишь куда меня линкует их Нейро по тексту "рекомендуется обратиться в службу поддержки"? То и скидываю.

Это ссылки на источник цитируемой информации. А не ссылка на ресурс, о котором может говориться в цитате. Как на Википедии.

В итоге для DPO требуется датасет (такой же как для reward model, т.е. со сравнением ответов A>B), а для PPO только запросы. Не является ли это ощутимым преимуществом PPO, ведь раз нам нужны только запросы, то мы имеем кратно больше данных?

Или дело в том что при использовании PPO мы все равно "ограничены" знаниями reward model, обученной на тех же самых размеченных данных?

Для PPO попарная разметка тоже нужна для обучения reward model. Т.е. PPO в этом плане не дешевле DPO. Однако, в PPO мы во время обучения «просматриваем» больше текстов, тк мы обучаемся на тех текстах, которые генерируются на лету.

Как будто, это действительно преимущество, но вы совершенно правы - можно упереться в ограничения модели награды.

Консенсуса сегодня нет, но существуют относительно свежие работы от гугла например, где показывают, что online обучение лучше, чем offline (как в dpo).

https://arxiv.org/pdf/2405.08448

Sign up to leave a comment.