Комментарии / Профиль ITNOOB / Хабр

Леонид Мурашов@ITNOOB

Data science R&D

Подписчики

Deep Reinforcement Learning: как научить пауков ходить

ITNOOB 7 янв 2020 в 21:29

Забавно, не замечал такого эффекта. Камера сохраняет константное положение относительно центральной точки. В самом начале видео до ката использовалась камера с фиксированной абсолютной позицией. Там можно пронаблюдать изменение высоты. Эффект усиливает ещё тот факт, что среда телепортирует робота, если агент падает.

Deep Reinforcement Learning: как научить пауков ходить

ITNOOB 7 янв 2020 в 18:47

Спасибо за комментарий!

Не совсем понял про то, почему полученные агенты не являются решениями. Суммарная награда высокая, и агент научился быстро и надёжно передвигаться.

Но я уловил основную идею. Нам повезло, что мы можем сформулировать задачу таким образом, чтобы обратная связь от среды в виде наград была почти моментальной. Алгоритм A2C без дополнительных модификаций не способен к хорошему exploration. Например, данная реализация не способна решить простейшие среды с разреженными наградами a.k.a. sparse reward, а именно https://gym.openai.com/envs/MountainCar-v0/

Deep Reinforcement Learning: как научить пауков ходить

ITNOOB 7 янв 2020 в 18:34

На видео среда MuJoCo. Это продвинутый физический симулятор. www.mujoco.org