Обновить

Комментарии 6

Вот честно, вы рассчитываете, что кто-то будет читать эти формулы и проверять? Для кого эта статья? Мне, как человеку практически применяющему RL было интересно узнать чем один алгоритм лучше другого и какой в каких случаях применять. Ну, примеры применения посмотреть. Этого как раз в статье и нет.

Добрый день! Я в начале указала, что вижу ценность поста именно в этих формулах. При самостоятельном разборе алгоритмов мне лично очень не хватало этой информации. Просто надеюсь что данный пост найдет своего читателя, кому важно что в у модельки лежит "под капотом" и какие идеи вообще к этому привели.

Так же, в тексте явно указано "чем один алгоритм лучше другого". Ставятся явно проблемы одного алгоритма и начинается объяснение другого алгоритма, решающего эту проблему.

Применение PPO добавила в начале)

Первая же фраза статьи: "Actor–critic методы относятся к классу on-policy алгоритмов" - некорректна. Гора математического мусора, сгенерированного ИИ, не нужна здесь никому. Палочник скачет отстойно, наверное виноват PPO

Я ставила проблему переиспользования данных из старой политики. Алгоритмы, обучающиеся только на текущей версии политики называются on-policy. Посмотрите на "гору математического мусора" первого же раздела.

Годная статья наконец-то) Побольше бы таких с формулами. Есть опечатки в них, но легко понять как должно быть, так как весь вывод показан. В принципе, есть и объяснение для чего каждая особенность PPO была введена)

Наконец-то не поругали за формулы 😅 Спасибо ❤️

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации