
Обучение с подкреплением — область исследований, которая была создана для решения задач оптимального управления, в связи с развитием и применением методов глубокого обучения приобретающая все большую популярность в последнее время. Алгоритмы из этой области применяются во многих отраслях науки и техники, где используются сложные системы принятия решений и классические алгоритмы не находят оптимальных решений или находят их за неприемлемо большой промежуток времени, таких как: робототехника, беспилотный транспорт, трейдинг, игровая индустрия.
В ходе вебинара будет рассказано методах обучения с подкреплением применительно к различным задачам. Разберемся в каких случаях можно его применять. На простых примерах игровых сред будут разобраны основные алгоритмы, и их усовершенствования. Посмотрим простые среды LunarLander и Atari Breakout. Будет показаны примеры реализации алгоритмов и как в среде Matlab так и при помощи Python. Поговорим о плюсах и минусах алгоритмов и ресурсах необходимых для их обучения.
На более сложном примере навигации мобильного робота пройдём полный путь разработки алгоритма: постановка задачи, выбор функции награды, обучение. Также поговорим о сложностях и трюках, которые помогли нам их преодолеть. Обсудим итоговое решение его и преимущества, а так же возможности дальнейшего развития.