Комментарии 6
Вот честно, вы рассчитываете, что кто-то будет читать эти формулы и проверять? Для кого эта статья? Мне, как человеку практически применяющему RL было интересно узнать чем один алгоритм лучше другого и какой в каких случаях применять. Ну, примеры применения посмотреть. Этого как раз в статье и нет.
Добрый день! Я в начале указала, что вижу ценность поста именно в этих формулах. При самостоятельном разборе алгоритмов мне лично очень не хватало этой информации. Просто надеюсь что данный пост найдет своего читателя, кому важно что в у модельки лежит "под капотом" и какие идеи вообще к этому привели.
Так же, в тексте явно указано "чем один алгоритм лучше другого". Ставятся явно проблемы одного алгоритма и начинается объяснение другого алгоритма, решающего эту проблему.
Применение PPO добавила в начале)
Первая же фраза статьи: "Actor–critic методы относятся к классу on-policy алгоритмов" - некорректна. Гора математического мусора, сгенерированного ИИ, не нужна здесь никому. Палочник скачет отстойно, наверное виноват PPO
Годная статья наконец-то) Побольше бы таких с формулами. Есть опечатки в них, но легко понять как должно быть, так как весь вывод показан. В принципе, есть и объяснение для чего каждая особенность PPO была введена)

Продвинутые RL алгоритмы: NPG, TRPO, PPO