anikengur8 фев в 02:10

Продвинутые RL алгоритмы: NPG, TRPO, PPO

Сложный

12 мин

10K

Математика * Машинное обучение * Программирование *

+10

Комментарии 6

ZanZy 8 фев в 09:37

Вот честно, вы рассчитываете, что кто-то будет читать эти формулы и проверять? Для кого эта статья? Мне, как человеку практически применяющему RL было интересно узнать чем один алгоритм лучше другого и какой в каких случаях применять. Ну, примеры применения посмотреть. Этого как раз в статье и нет.

anikengur 8 фев в 09:57

Добрый день! Я в начале указала, что вижу ценность поста именно в этих формулах. При самостоятельном разборе алгоритмов мне лично очень не хватало этой информации. Просто надеюсь что данный пост найдет своего читателя, кому важно что в у модельки лежит "под капотом" и какие идеи вообще к этому привели.

Так же, в тексте явно указано "чем один алгоритм лучше другого". Ставятся явно проблемы одного алгоритма и начинается объяснение другого алгоритма, решающего эту проблему.

Применение PPO добавила в начале)

Sensimilla 9 фев в 19:45

Первая же фраза статьи: "Actor–critic методы относятся к классу on-policy алгоритмов" - некорректна. Гора математического мусора, сгенерированного ИИ, не нужна здесь никому. Палочник скачет отстойно, наверное виноват PPO

anikengur 9 фев в 20:30

Я ставила проблему переиспользования данных из старой политики. Алгоритмы, обучающиеся только на текущей версии политики называются on-policy. Посмотрите на "гору математического мусора" первого же раздела.

eryash 12 фев в 19:33

Годная статья наконец-то) Побольше бы таких с формулами. Есть опечатки в них, но легко понять как должно быть, так как весь вывод показан. В принципе, есть и объяснение для чего каждая особенность PPO была введена)

anikengur 12 фев в 19:45

Наконец-то не поругали за формулы 😅 Спасибо ❤️

Зарегистрируйтесь на Хабре, чтобы оставить комментарий