Comments 8
Что с быстродействием? Через сколько кадров после пуска RL начинает вести себя систематически лучше, чем рандом?
Насколько такая система переносима на более "взрослые" задачи, вроде игр Атари, где на входе картинка с экрана?
Есть такая библиотека - rlib, в которой вроде бы многое идет из коробки. Но RL не панацея, по крайней мере в задачах с множественной неопределенностью и большим коэффициентом ветвления ситуаций (особенно дискретных). Многие уповают на концепции типа альфаго, вполне возможно, что это как-то поможет.
Если интересно двигать эту тему вперед (мне самому очень интересно, но времени нет), то можете попробовать сделать симулятор в котором размер награды зависит от цепочки действий, а не одного действия, а сам "мир" является случайным. Любой успех в этом направлении имел бы огромную практическую пользу, так как многие процессы, например, производства, как раз и являются цепочками действий. Иногда, использование стохастического программирования в таких процессах, позволяет добиться экономии в 70-80%.
Есть хорошая книга "обучение с подкреплением" Саттон и Барто. В ней мало чего про использование DL, но много полезных концепций.
В общем:
1) статья огонь!
2) вам успехов!
А какая практическая ценность данного примера? Не могу додуматься
Ценность конечно не в нанороботе. Задача была в использовании произвольной среды. Среды которую можно запрограммировать без рамок Атари и т.д. в Open Gym. Удивило почти полное отсутствие информации на русском, минимум на английском. В результате простая задача затянулась на несколько недель. Кому то она может сэкономить хотя-бы неделю.
Сейчас занимаюсь задачей оптимизации планирования производства (flexible job shop problem) с помощью RL, и тоже столкнулась с тем, что большинство найденных материалов по RL связаны с играми и gym.
Обучение с подкреплением на Python: Пример не из «качалки»