Как стать автором
Обновить
13
0
Леонид Мурашов @ITNOOB

Data science R&D

Отправить сообщение

Забавно, не замечал такого эффекта. Камера сохраняет константное положение относительно центральной точки. В самом начале видео до ката использовалась камера с фиксированной абсолютной позицией. Там можно пронаблюдать изменение высоты. Эффект усиливает ещё тот факт, что среда телепортирует робота, если агент падает.

Спасибо за комментарий!


Не совсем понял про то, почему полученные агенты не являются решениями. Суммарная награда высокая, и агент научился быстро и надёжно передвигаться.


Но я уловил основную идею. Нам повезло, что мы можем сформулировать задачу таким образом, чтобы обратная связь от среды в виде наград была почти моментальной. Алгоритм A2C без дополнительных модификаций не способен к хорошему exploration. Например, данная реализация не способна решить простейшие среды с разреженными наградами a.k.a. sparse reward, а именно https://gym.openai.com/envs/MountainCar-v0/

На видео среда MuJoCo. Это продвинутый физический симулятор. www.mujoco.org

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность