Комментарии / Профиль ArgentumWalker / Хабр

Олег Свидченко@ArgentumWalker

Пользователь

Mountain Car: решаем классическую задачу при помощи обучения с подкреплением

ArgentumWalker 20 мар 2019 в 16:13

Рад, что вам понравилось!
Таких планов у меня (во всяком случае, пока) нет. Такое сравнение будет очень сильно зависеть как от параметров используемых алгоритмов (архитектура сетей, параметры оптимизатора, выбор random seed и других), так и от выбора задачи, а потому будет довольно сложно сравнивать их как-то объективно.
Впрочем, часто авторы статей самостоятельно сравнивают свои алгоритмы с другими. Например, в статье A3C есть сравнение с DQN, DDQN и другими на играх Atari.

Mountain Car: решаем классическую задачу при помощи обучения с подкреплением

ArgentumWalker 20 мар 2019 в 13:24

Насколько мне известно, пока никто не опубликовал аналитическое решение с доказанной оптимальностью, однако есть различные эвристические решения (например, это)
Согласно таблице окружений от OpenAI, MountainCar считается решенным при достижении счета больше -110 в среднем за 100 тестовых эпизодов, а Leaderbord сортируется по количеству эпизодов необходимых агенту для решения задачи.