Комментарии 2
Вот честно, вы рассчитываете, что кто-то будет читать эти формулы и проверять? Для кого эта статья? Мне, как человеку практически применяющему RL было интересно узнать чем один алгоритм лучше другого и какой в каких случаях применять. Ну, примеры применения посмотреть. Этого как раз в статье и нет.
Добрый день! Я в начале указала, что вижу ценность поста именно в этих формулах. При самостоятельном разборе алгоритмов мне лично очень не хватало этой информации. Просто надеюсь что данный пост найдет своего читателя, кому важно что в у модельки лежит "под капотом" и какие идеи вообще к этому привели.
Так же, в тексте явно указано "чем один алгоритм лучше другого". Ставятся явно проблемы одного алгоритма и начинается объяснение другого алгоритма, решающего эту проблему.
Применение PPO добавила в начале)

Продвинутые RL алгоритмы: NPG, TRPO, PPO