Как стать автором
Обновить

Комментарии 7

попробуйте еще технику Policy Gradient, она должна быстрее учить нейросеть
habr.com/ru/post/439674
Я понимаю, что это типа обучающая статья, но проохождение лабиринта с помощью RL — это забивание свай электронным микроскопом.
На самом деле есть задачи, когда лабиринт представлен неявно. Например, есть скрытый за стеной лабиринт или его подобие и можно только его просветить каким-нибудь радиосигналом.
И зачем тут RL? В реальных задачах никто осознанно не прячет данные. Любой лабиринт легко обходится с помощью DFS, достаточно только знать свое текущее положение.
ну тогда обойдите лабиринт, который в реальности является месторождением нефти в пористой породе
Не очень понял в чем вопрос. Здесь проблема в постановке задачи в первую очередь.
Отличная статья!

По видео у меня возникло ощущение, что никакого «обучения» не происходит. Агенты наугад топают во всех направлениях и запоминают только лишь путь, по которому можно дойти до рекорда предка. Т.е. по сути нейросеть тренируется как успешно пройти именно этот лабиринт.

Мне кажется задача изначально поставлена неправильно. Мне кажется агентам заранее должно быть известно, что, например, слева или справа обрыв (нули). И алгоритм должен обучиться ходить только по единицам. Тогда алгоритм сможет успешно проходить любые лабиринты вез ответвлений.

P.S. Хороший пример обучения нейросети с подкреплением:
www.youtube.com/watch?v=wL7tSgUpy8w

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.