Comments 22
Спасибо за статью, жду с нетерпением статью про обучение пауков полету.
Спасибо за комментарий!
Не совсем понял про то, почему полученные агенты не являются решениями. Суммарная награда высокая, и агент научился быстро и надёжно передвигаться.
Но я уловил основную идею. Нам повезло, что мы можем сформулировать задачу таким образом, чтобы обратная связь от среды в виде наград была почти моментальной. Алгоритм A2C без дополнительных модификаций не способен к хорошему exploration. Например, данная реализация не способна решить простейшие среды с разреженными наградами a.k.a. sparse reward, а именно https://gym.openai.com/envs/MountainCar-v0/
Забавно, не замечал такого эффекта. Камера сохраняет константное положение относительно центральной точки. В самом начале видео до ката использовалась камера с фиксированной абсолютной позицией. Там можно пронаблюдать изменение высоты. Эффект усиливает ещё тот факт, что среда телепортирует робота, если агент падает.
Неплохо, но это ведь не совсем ходьба. Тут получается как 2 широкие ноги, и передвижение синхронными движениями. Ходьба это именно когда часть ног опирается, часть перемещается.
Я наблюдаю следующую проблему: в реальных задачах или награды слишком Sparse (например, у чатбота или у квадрокоптера-разведчика), или слишком много степеней свободы (чатбот, робот-инженер), или слишком высока цена ошибки (робоавтомобиль).
В целом тема интересная. Жаль, что py_mujoco перестали под windows поддерживать.
Deep Reinforcement Learning: как научить пауков ходить