Комментарии 10
классная статья! очень доходчиво и живо написано
Жаль что не описали другие подходы, ORPO, KTO, SimPO
Спасибо за интересную статью, захотелось сразу заботать наконец RL.
Кажется, что KL дивергенция должна быть вне знака матожидания в разделе про DPO, то есть минимизируемый функционал .
Матожидание по уже стоит по факту перед логарифмом в KL-дивергенции.
Поздравляю. Теперь ваш пост от 2013 года стал официальной службой поддержки YandexGPT.

https://habr.com/ru/companies/yandex/articles/165919/

В итоге для DPO требуется датасет (такой же как для reward model, т.е. со сравнением ответов A>B), а для PPO только запросы. Не является ли это ощутимым преимуществом PPO, ведь раз нам нужны только запросы, то мы имеем кратно больше данных?
Или дело в том что при использовании PPO мы все равно "ограничены" знаниями reward model, обученной на тех же самых размеченных данных?
Для PPO попарная разметка тоже нужна для обучения reward model. Т.е. PPO в этом плане не дешевле DPO. Однако, в PPO мы во время обучения «просматриваем» больше текстов, тк мы обучаемся на тех текстах, которые генерируются на лету.
Как будто, это действительно преимущество, но вы совершенно правы - можно упереться в ограничения модели награды.
Консенсуса сегодня нет, но существуют относительно свежие работы от гугла например, где показывают, что online обучение лучше, чем offline (как в dpo).
Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT