Dmi3Ut Oct 30 2021 at 12:33

Обучение с подкреплением на Python: Пример не из «качалки»

10 min

23K

Python * Machine learning * Robotics

Tutorial

+12

Comments 8

Kilorad Oct 30 2021 at 13:15

Что с быстродействием? Через сколько кадров после пуска RL начинает вести себя систематически лучше, чем рандом?

Насколько такая система переносима на более "взрослые" задачи, вроде игр Атари, где на входе картинка с экрана?

Dmi3Ut Oct 30 2021 at 13:43

В задаче я как раз уходил от "взрослых" игр серии Gym. Таких примеров в интернете - масса. При всем уважении к сайту тренажеру, - их практическая применимость заканчивается за порогом gym-качалки.

На обучение этой задачи ушло около получаса на Google Colab. Причем GPU не давал преимуществ.

Dmi3Ut Oct 30 2021 at 14:26

Динамику обучения я не оценивал. Вывод keras-rl можно увидеть здесь

uchitel Oct 31 2021 at 05:38

Есть такая библиотека - rlib, в которой вроде бы многое идет из коробки. Но RL не панацея, по крайней мере в задачах с множественной неопределенностью и большим коэффициентом ветвления ситуаций (особенно дискретных). Многие уповают на концепции типа альфаго, вполне возможно, что это как-то поможет.

Если интересно двигать эту тему вперед (мне самому очень интересно, но времени нет), то можете попробовать сделать симулятор в котором размер награды зависит от цепочки действий, а не одного действия, а сам "мир" является случайным. Любой успех в этом направлении имел бы огромную практическую пользу, так как многие процессы, например, производства, как раз и являются цепочками действий. Иногда, использование стохастического программирования в таких процессах, позволяет добиться экономии в 70-80%.

Есть хорошая книга "обучение с подкреплением" Саттон и Барто. В ней мало чего про использование DL, но много полезных концепций.

В общем:

1) статья огонь!

2) вам успехов!

Dmi3Ut Oct 31 2021 at 09:28

Большое спасибо!

vandriichuk Oct 31 2021 at 06:03

А какая практическая ценность данного примера? Не могу додуматься

Dmi3Ut Oct 31 2021 at 09:36

Ценность конечно не в нанороботе. Задача была в использовании произвольной среды. Среды которую можно запрограммировать без рамок Атари и т.д. в Open Gym. Удивило почти полное отсутствие информации на русском, минимум на английском. В результате простая задача затянулась на несколько недель. Кому то она может сэкономить хотя-бы неделю.

Yerin Nov 29 2021 at 03:37

Сейчас занимаюсь задачей оптимизации планирования производства (flexible job shop problem) с помощью RL, и тоже столкнулась с тем, что большинство найденных материалов по RL связаны с играми и gym.