Как стать автором
Обновить

Комментарии 8

А аналитическое решение у задачи не существует?
Чтоб можно было сравнить эталон с результатом обучения?

Насколько мне известно, пока никто не опубликовал аналитическое решение с доказанной оптимальностью, однако есть различные эвристические решения (например, это)
Согласно таблице окружений от OpenAI, MountainCar считается решенным при достижении счета больше -110 в среднем за 100 тестовых эпизодов, а Leaderbord сортируется по количеству эпизодов необходимых агенту для решения задачи.

Задача, кажется, должна достаточно несложно решаться в обратном времени. Не пробовали, что получается?

Спасибо за интересную статью!
Сам использовал модификации rewards в подобных задачах, но не был уверен в правильности выбора, теперь моя совесть спокойна)

Нет ли в планах сравнить популярные алгоритмы обучения с подкреплением в рамках этой (или любой другой) задачи? К примеру было бы интересно сравнить Q-learning алгоритмы с policy optimization (PG, A3C/A2C и пр.) Метриками могут служить время выполнения, скорость сходимости, затраты ресурсов CPU/GPU
Рад, что вам понравилось!
Таких планов у меня (во всяком случае, пока) нет. Такое сравнение будет очень сильно зависеть как от параметров используемых алгоритмов (архитектура сетей, параметры оптимизатора, выбор random seed и других), так и от выбора задачи, а потому будет довольно сложно сравнивать их как-то объективно.
Впрочем, часто авторы статей самостоятельно сравнивают свои алгоритмы с другими. Например, в статье A3C есть сравнение с DQN, DDQN и другими на играх Atari.
Как раз думал такую статью написать, но не знаю, будет ли это интересно кому-то. В последнее время много экспериментировал с Gym.
Но мне кажется, алгоритмы для сравнения следует выбирать по признаку их применимости в окружениях определенного типа. Я выделяю три типа:
1 — discrete action, discrete state
2 — discrete action, continuous state
3 — continuous action, continuous state
Исходя из этого, Q-learning логично сравнить c Double Q-learning, SARSA и MC-методами (1 тип). Так как, PG, A2C/A3C в окружениях 1 типа не применимы.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий