Search
Write a publication
Pull to refresh
13
0
Леонид Мурашов @ITNOOB

Data science R&D

Send message

Забавно, не замечал такого эффекта. Камера сохраняет константное положение относительно центральной точки. В самом начале видео до ката использовалась камера с фиксированной абсолютной позицией. Там можно пронаблюдать изменение высоты. Эффект усиливает ещё тот факт, что среда телепортирует робота, если агент падает.

Спасибо за комментарий!


Не совсем понял про то, почему полученные агенты не являются решениями. Суммарная награда высокая, и агент научился быстро и надёжно передвигаться.


Но я уловил основную идею. Нам повезло, что мы можем сформулировать задачу таким образом, чтобы обратная связь от среды в виде наград была почти моментальной. Алгоритм A2C без дополнительных модификаций не способен к хорошему exploration. Например, данная реализация не способна решить простейшие среды с разреженными наградами a.k.a. sparse reward, а именно https://gym.openai.com/envs/MountainCar-v0/

На видео среда MuJoCo. Это продвинутый физический симулятор. www.mujoco.org

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity