Comments / Profile of cydoroga / Habr

Темирчев Павел @cydoroga

Учу машины, дрессирую сети RLем.

Profile Publications 1Comments 3Bookmarks 1

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Для PPO попарная разметка тоже нужна для обучения reward model. Т.е. PPO в этом плане не дешевле DPO. Однако, в PPO мы во время обучения «просматриваем» больше текстов, тк мы обучаемся на тех текстах, которые генерируются на лету.

Как будто, это действительно преимущество, но вы совершенно правы - можно упереться в ограничения модели награды.

Консенсуса сегодня нет, но существуют относительно свежие работы от гугла например, где показывают, что online обучение лучше, чем offline (как в dpo).

https://arxiv.org/pdf/2405.08448

Look

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

cydoroga Jun 3 at 09:57

Добрый день! Вы правы, часто можно увидеть и такую запись.

Математически они эквивалентны, так как "удвоенное" матожидание не меняет значения: $\mathbf{E}_a \mathbf{E}_a f(a) = \mathbf{E}_a f(a)$

Для доказательств мы в итоге матожидания все равно объединяем.

Look

Дрон боевой, полностью твой. Обучаем игровой AI методом перебора стратегий

cydoroga Mar 12 2017 at 11:43

++
Есть такая штука как эпсилон жадная стратегия: сеть выбирает любое действие с малой вероятностью эпсилон, а в остальных случаях аргмакс из ответов сети. В DQN такая стратегия работает лучше, чем выбор пропорционально величине ответа сети.
Это на обучении, а на тесте конечно надо оптимально действовать.

Look