Обучение с подкреплением или эволюционные стратегии?

Привет, Хабр!

Мы нечасто решаемся размещать здесь переводы текстов двухлетней давности, без кода и явно академической направленности — но сегодня сделаем исключение. Надеемся, что дилемма, вынесенная в заголовок статьи, волнует многих наших читателей, а фундаментальную работу об эволюционных стратегиях, с которой полемизирует этот пост, вы уже читали в оригинале или прочитаете сейчас. Добро пожаловать под кат!

В марте 2017 года компания OpenAI наделала шума в сообществе специалистов по глубокому обучению, опубликовав статью “Evolution Strategies as a Scalable Alternative to Reinforcement Learning.” В этой работе были описаны впечатляющие результаты в пользу того, что на обучении с подкреплением (RL) свет клином не сошелся, и при обучении сложных нейронных сетей целесообразно попробовать и другие методы. Тогда разгорелась дискуссия относительно важности обучения с подкреплением и о том, насколько оно заслуживает статуса «обязательной» технологии при обучении решению задач. Здесь я хочу высказаться о том, то не стоит рассматривать две эти технологии как конкурирующие, одна из которых однозначно лучше другой; напротив, в конечном итоге они дополняют друг друга. Действительно, если немного задуматься о том, что требуется для создания общего ИИ и таких систем, которые на протяжении всего существования были бы способны к обучению, суждению и планированию, то практически наверняка мы придем к выводу, что для этого потребуется то или иное комбинированное решение. Кстати, именно к комбинированному решению пришла природа, наделившая в ходе эволюции сложным интеллектом млекопитающих и других высших животных.

Эволюционные стратегии

Основной тезис статьи OpenAI заключался в том, что вместо использования обучения с подкреплением в сочетании с традиционным обратным распространением они успешно обучили нейронную сеть решению сложных задач с применением так называемой «эволюционной стратегии» (ЭС). Такой ЭС-подход заключается в поддержании распределения весовых значений в масштабах сети, причем задействуется множество агентов, работающих параллельно и использующих параметры, выбранные из этого распределения. Каждый агент действует в собственной среде и по завершении заданного количества эпизодов или этапов эпизода алгоритму возвращается совокупное вознаграждение, выражаемое как оценка годности (fitness score). С учетом этого значения распределение параметров можно смещать в сторону более успешных агентов, обделяя менее успешных. Миллионы раз повторив такую операцию с участием сотен агентов, можно переместить распределение весов в такое пространство, которое позволит сформулировать для агентов качественную политику для решения поставленной перед ними задачи. Действительно, результаты, приведенные в статье, впечатляют: показано, что, если параллельно запустить тысячу агентов, то антропоморфное передвижение на двух ногах можно изучить менее чем за полчаса (тогда как даже самые продвинутые методы RL требуют потратить на это не один час). Для более подробного ознакомления рекомендую почитать отличный пост от авторов эксперимента, а также саму научную статью.

Различные стратегии обучения антропоморфному прямохождению, изученные методом ЭС от OpenAI.

Черный ящик

Огромная польза этого метода заключается в том, что он легко распараллеливается. В то время как методы RL, например, A3C, требуют обмениваться информацией между рабочими потоками и сервером параметров, ЭС нуждается только в оценках годности и обобщенной информации о распределении параметров. Именно благодаря такой простоте данный метод далеко обходит по возможностям масштабирования современные методы RL. Однако, все это достается не даром: приходится оптимизировать сеть по принципу черного ящика. В данном случае под «черным ящиком» понимается, что при обучении внутреннее устройство сети полностью игнорируется, а в ход идет только общий результат (вознаграждение за эпизод), и именно от него зависит, будут ли распространяться веса конкретной сети в наследство последующим поколениям. В ситуациях, когда мы не получаем выраженной обратной связи от окружающей среды, — а при решении многих традиционных задач, связанных с RL, поток вознаграждений весьма разреженный – проблема превращается из «отчасти черного ящика» в «полностью черный ящик». В таком случае удается серьезно повысить производительность, так что, безусловно, такой компромисс оправдан. «Кому нужны градиенты, если они все равно безнадежно зашумлены?» — таково общее мнение.

Однако, в ситуациях, когда обратная связь более активная, дела у ЭС начинают разлаживаться. Команда OpenAI описывает, как при помощи ЭС была обучена простая классификационная сеть MNIST, и на этот ��аз обучение прошло в 1000 раз медленнее. Дело в том, что градиентный сигнал при классификации изображений исключительно информативен относительно того, как научить сеть более качественной классификации. Таким образом, проблема связана не столько с методикой RL, сколько с разреженными вознаграждениями в окружениях, дающих зашумленные градиенты.

Решение, найденное природой

Если пытаться учиться на примере природы, продумывая способы разработки ИИ, то в некоторых случаях ИИ можно представить как проблемно-ориентированный подход. В конце концов, природа действует в рамках таких ограничений, которыми просто не располагают ученые-информатики. Существует мнение, что чисто теоретический подход к решению той или иной задачи может давать более эффективные решения, чем эмпирические альтернативы. Тем не менее, я все-таки считаю, что было бы целесообразно проверить, как динамическая система, действующая в условиях определенных ограничений (Земля) сформировала агентов (животных, в частности, млекопитающих), способных к гибкому и сложному поведению. В то время как некоторые из этих ограничений неприменимы в смоделированных мирах науки о данных, другие как раз очень хороши.

Рассмотрев интеллектуальное поведение млекопитающих, мы видим, что оно формируется в результате сложного взаимовлияния двух тесно взаимосвязанных процессов: обучения на чужом опыте и обучения на собственном опыте. Первое часто отождествляется с эволюцией, обусловленной естественным отбором, но здесь я применяю более широкий термин, чтобы учесть эпигенетику, микробиомы и прочие механизмы, обеспечивающие обмен опытом между организмами, не родственными друг другу с генетической точки зрения. Второй процесс, обучение на собственном опыте – это вся информация, которую животное успевает усвоить на протяжении жизни, и данная информация непосредственно обусловлена взаимодействием этого животного с окружающим миром. К данной категории относится все от обучения распознаванию объектов до осваивания коммуникации, присущей учебному процессу.

Грубо говоря, два этих процесса, происходящих в природе, можно сравнить с двумя вариантами оптимизации нейронных сетей. Эволюционные стратегии, где информация о градиентах используется для обновления информации об организме, сближаются с обучением на чужом опыте. Аналогично, градиентные методы, где получение того или иного опыта приводит к тем или иным изменениям в поведении агента, сравнимы с обучением на собственном опыте. Если задуматься о разновидностях интеллектуального поведения или о способностях, которые развивает у животных каждый из двух этих подходов, такое сравнение получается более выраженным. В обоих случаях «эволюционные методы» способствуют изучению реактивных вариантов поведения, позволяющих развить определенную приспособленность (достаточную, чтобы остаться в живых). Обучение ходьбе или бегству из плена во многих случаях эквивалентно более «инстинктивным» вариантам поведения, «жестко прошитым» у многих животных на генетическом уровне. Кроме того, данный пример подтверждает, что эволюционные методы применимы в случаях, когда сигнал-вознаграждение поступает исключительно редко (таков, например, факт успешного воспитания детеныша). В подобном случае невозможно соотнести вознаграждение с каким-то конкретным набором действий, которые, возможно, совершались за много лет до наступления этого факта. С другой стороны, если рассмотреть случай, в котором ЭС отказывает, а именно – классификацию изображений, то результаты будут замечательно сопоставимы с итогами обучения животных, достигнутыми в ходе бесчисленных бихевиористских психологических экспериментах, проведенных за 100 с лишним лет.

Обучение у животных

Методы, применяемые при обучении с подкреплением, во многих случаях взяты непосредственно из психологической литературы об оперантном обусловливании, а оперантное обусловливание исследовалось на материале психологии животных. Кстати, Ричард Саттон, один из двух основателей обучения с подкреплением, имеет степень бакалавра по психологии. В контексте оперантного обусловливания животные учатся ассоциировать вознаграждение или наказание с конкретными поведенческими паттернами. Дрессировщики и исследователи могут тем или иным образом манипулировать такой ассоциацией с вознаграждением, провоцируя животных демонстрировать сообразительность или определенные варианты поведения. Однако, оперантное обусловливание, применяемое при исследовании животных – ни что иное, как более выраженная форма того самого обусловливания, на базе которого животные обучаются в течение всей жизни. Мы постоянно получаем от окружающей среды сигналы положительного подкрепления и соответствующим образом корректируем наше поведение. В самом деле, многие нейрофизиологи и когнитивисты полагают, что на самом деле люди и другие животные действуют даже на уровень выше и постоянно учатся прогнозировать результаты своего поведения в будущих ситуациях, рассчитывая на потенциальное вознаграждение.

Центральная роль прогнозирования при обучении на собственном опыте самым существенным образом меняет вышеописанную динамику. Тот сигнал, который ранее считался весьма разреженным (эпизодическое вознаграждение) оказывается очень плотным. Теоретически ситуация примерно такова: в каждый момент времени мозг млекопитающего просчитывает результаты на основании сложного потока сенсорных стимулов и действий, тогда как животное просто погружено в этот поток. В таком случае итоговое поведение животного дает плотный сигнал, которым приходится руководствоваться при корректировании прогнозов и развитии поведения. Все эти сигналы мозг использует для того, чтобы оптимизировать прогнозы (и, соответственно, качество совершаемых действий) в дальнейшем. Обзор этого подхода дается в отличной книге “Surfing Uncertainty” когнитивиста и философа Энди Кларка. Если экстраполировать такие рассуждения на обучение искусственных агентов, то в обучении с подкреплением обнаруживается фундаментальный недостаток: используемый в этой парадигме сигнал оказывается безнадежно слаб по сравнению с тем, каков он мог бы быть (или должен быть). В случаях, когда повысить насыщенность сигнала невозможно (возможно, поскольку он по определению слаб, либо связан с низкоуровневой реактивностью) – вероятно, лучше предпочесть такой метод обучения, который хорошо распараллеливается, например, ЭС.

Более насыщенное обучение нейронных сетей

На основе принципов высшей нервной деятельности, присущих мозгу млекопитающих, постоянно занятому прогнозированием, в последнее время удалось добиться определенных успехов в обучении с подкреплением, которое теперь учитывает важность таких прогнозов. С ходу могу порекомендовать вам две подобные работы:

В обеих этих статьях авторы дополняют типичную политику своих нейронных сетей, действующую по умолчанию, результатами прогнозов, касающимися состояния окружающей среды в будущем. В первой статье прогнозирование применяется к множеству измерительных переменных, а во второй – изменений в окружающей среде и поведении агента как такового. В обоих случаях разреженный сигнал, связанный с положительным подкреплением, становится гораздо более насыщенным и информативным, обеспечивая как ускоренное обучение, так и усвоение более сложных поведенческих моделей. Подобные усовершенствования доступны только при работе с методами, использующими градиентный сигнал, но не с методами, действующими по принципу «черного ящика», как, например, ЭС.

Кроме того, обучение на собственном опыте и градиентные методы – гораздо эффективнее. Даже в тех случаях, когда изучить ту или иную проблему методом ЭС удавалось быстрее, нежели с помощью обучения с подкреплением, выигрыш достигался за счет того, что в ЭС-стратегии задействовалось во много раз больше данных, чем при RL. Размышляя в данном случае о принципах обучения у животных, отметим, что результат обучения на чужом примере проявляется спустя множество поколений, тогда как порой достаточно единственного события, пережитого на собственном опыте, чтобы животное навсегда усвоило урок. В то время как подобное обучение без примеров пока не вполне вписывается в традиционные градиентные методы, оно гораздо доходчивее, чем ЭС. Есть, например, такие подходы, как нейронный эпизодический контроль, где Q-значения сохраняются в процессе обучения, после чего программа сверяется с ними перед тем, как совершать действия. Получается градиентный метод, позволяющий научиться решению задач гораздо быстрее, чем ранее. В статье о нейронном эпизодическом контроле авторы упоминают человеческий гиппокамп, способный сохранять информацию о событии даже после единожды пережитого опыта и, следовательно, играет критически важную роль в процессе вспоминания. Такие механизмы требуют доступа к внутренней организации агента, что также по определению невозможно в парадигме ЭС.

Итак, почему бы их не совместить?

Вероятно, большая часть этой статьи могла оставить такое впечатление, как будто в ней я отстаиваю методы RL. Однако, на самом деле я считаю, что в долгосрочной перспективе наилучшим решением будет комбинация обоих методов, чтобы каждый использовался в тех ситуациях, в которых он лучше всего подходит. Очевидно, что в случае многих реактивных политик или в ситуациях с очень разреженными сигналами положительного подкрепления ЭС выигрывает, тем более, если у вас в распоряжении есть вычислительные мощности, на которых можно запускать массово-параллельное обучение. С другой стороны, градиентные методы, использующие обучение с подкреплением или обучение с учителем будут полезны, когда нам доступна обширная обратная связь, а решению задачи требуется научиться быстро и на меньшем количестве данных.

Обратившись к природе, обнаружим, что первый метод, в сущности, закладывает основу для второго. Именно поэтому в ходе эволюции млекопитающие развили мозг, позволяющий исключительно эффективно учиться на материале сложных сигналов, поступающих из окружающей среды. Так что, вопрос остается открытым. Возможно, эволюционные стратегии помогут нам изобрести эффективные архитектуры обучения, которые будут полезны и для градиентных методов обучения. Ведь решение, найденное природой, действительно весьма удачное.

Обучение с подкреплением или эволюционные стратегии? — И то, и другое