Обучение с подкреплением никогда не работало / Комментарии / Хабр

LorDCA 2 мар 2018 в 20:47

В принципе вся суть в этих парах предложений.

Мир нашего размера кажется в основном непрерывным. Но для RL это проблема. Как принять бесконечное количество состояний бесконечное число раз и выполнить бесконечное количество действий бесконечное число раз? Если только обобщить некоторые усвоенные знания на невидимые состояния и действия. Обучение с учителем!

Он должен регулировать скорость каждого шарнира каждую миллисекунду, а человек вознаградит его только когда он сделает хороший сэндвич. Между этими вознаграждениями происходит много событий, и если промежуток между важным выбором и вознаграждением слишком велик, то любой современный алгоритм просто потерпит неудачу.

Все сводится к тому что имеющиеся алгоритмы не умеют обобщать обобщенное. В смысле повышать уровень абстракции. И проблема в самой структуре нейросети. И тут не важно с учителем или за поощрение. У вас просто не хватит элементов и они не способны обобщаться случайным образом, в смысле вам будет не реально обобщить признаки от 3 элементов в первом слое и 1 в последнем. Их просто вымоет массой. Вся суть сводится к оптимальному поиску пути, одного, усредненного в вакууме пути. Когда в реальности путей много.
Попробую на примере вашего робота с сендвичем. Путей реализовать сендвич много. Но ваш робот освоит только один, потому что не способен делать промежуточные обобщения. Грубо говоря нейросеть рассматривает все действие целиком. А для хранения, выбора и перебора каждого процесса от начала до старта вам не хватит ни времени, ни железа.
Как это реализуется в моем алгоритме.
На старте есть 3 структуры. Одна сенсорная, обрабатывает и хранит то что наблюдает во внешнем мире. Вторая моторная, реализует воздействие на внешний мир. Обе структуры описывают как множества сенсоров/моторов и эти множества позволяют проводить обобщение любых других множеств в новые множества (в виде графа). Между ними есть «месенджер» (это очень натянутое определение), это их внутреннее общение. Но так же они могут общаться и через внешний мир. Когда моторная производит какие то действия, то сенсорная может их наблюдать/ощущать. На старте моторная часть воспроизводит все возможные доступные ей действия, что дает сенсорной «маркеры», какие действия в окружающем мире могут быть реализованы. Дальше как вы можете себе представить, любые наблюдаемые во внешнем мире изменения могут быть оценены и предприняты попытки повторить их своими инструментами. То есть имея множество описывающее идеальный пример мы можем имеющимися инструментами/множествами пытаться максимально приблизится к идеалу. При этом в каждом отдельном обучение мы получаем уже готовые мелкие множества которые можно использовать в следующих обучениях. То есть каждое последующее становится проще и быстрее.

Обучение с подкреплением никогда не работало

Комментарии 1

Публикации