anikengur8 часов назад

Продвинутые RL алгоритмы: NPG, TRPO, PPO

Сложный

12 мин

6.1K

Математика * Машинное обучение * Программирование *

Комментарии 2

ZanZy 1 час назад

Вот честно, вы рассчитываете, что кто-то будет читать эти формулы и проверять? Для кого эта статья? Мне, как человеку практически применяющему RL было интересно узнать чем один алгоритм лучше другого и какой в каких случаях применять. Ну, примеры применения посмотреть. Этого как раз в статье и нет.

anikengur 40 минут назад

Добрый день! Я в начале указала, что вижу ценность поста именно в этих формулах. При самостоятельном разборе алгоритмов мне лично очень не хватало этой информации. Просто надеюсь что данный пост найдет своего читателя, кому важно что в у модельки лежит "под капотом" и какие идеи вообще к этому привели.

Так же, в тексте явно указано "чем один алгоритм лучше другого". Ставятся явно проблемы одного алгоритма и начинается объяснение другого алгоритма, решающего эту проблему.

Применение PPO добавила в начале)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий