Pull to refresh
12
0
Темирчев Павел @cydoroga

Учу машины, дрессирую сети RLем.

Send message

Для PPO попарная разметка тоже нужна для обучения reward model. Т.е. PPO в этом плане не дешевле DPO. Однако, в PPO мы во время обучения «просматриваем» больше текстов, тк мы обучаемся на тех текстах, которые генерируются на лету.

Как будто, это действительно преимущество, но вы совершенно правы - можно упереться в ограничения модели награды.

Консенсуса сегодня нет, но существуют относительно свежие работы от гугла например, где показывают, что online обучение лучше, чем offline (как в dpo).

https://arxiv.org/pdf/2405.08448

Добрый день! Вы правы, часто можно увидеть и такую запись.

Математически они эквивалентны, так как "удвоенное" матожидание не меняет значения: \mathbf{E}_a \mathbf{E}_a f(a) = \mathbf{E}_a f(a)

Для доказательств мы в итоге матожидания все равно объединяем.

++
Есть такая штука как эпсилон жадная стратегия: сеть выбирает любое действие с малой вероятностью эпсилон, а в остальных случаях аргмакс из ответов сети. В DQN такая стратегия работает лучше, чем выбор пропорционально величине ответа сети.
Это на обучении, а на тесте конечно надо оптимально действовать.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity