DeepMind научил ИИ проходить игры по видео с YouTube


    Уровни игры Montezuma’s Revenge на Atari

    Компания DeepMind продемонстрировала процесс обучения ИИ (слабой его формы) для прохождения игр на Atari. Обучение производилось путем демонстрации системе видео прохождения игр с YouTube. Такой способ используют многие игроки-люди, у которых по той либо иной причине не получалось пройти какую-то игру.

    Обычно для решения такой задачи необходимо использовать так называемый метод обучения с подкреплением (reinforcement learning). Методика эта достаточно популярна, поскольку позволяет тренировать ботов для выполнения различных специфических задач. Как только система добивается какого-либо результата, она получает небольшое вознаграждение.

    Разработчики создают алгоритмы и модели, которые в состоянии оценить игровое окружение, включая и возможные вознаграждения за прохождение (очки, бонусы и т.п.). Такие системы изучают игру шаг за шагом, постепенно продвигаясь к финалу.

    Новый метод, разработанный в DeepMind, отличается от всех прочих. Специалисты компании смогли обучить ИИ проходить такие игры под Atari, как Montezuma’s Revenge, Pitfall и Private Eye. При этом акцент на очках и призах не делался — обучение шло по туториалам с YouTube. И это позволило добиться необычных для ИИ результатов.

    Дело в том, что игры вроде того же Montezuma’s Revenge сложны для «понимания» машинами. Здесь нет четкого задания, не совсем понятно, куда нужно идти, какие предметы собирать и что с ними делать в дальнейшем. Машина просто теряется, поскольку в процессе продвижения она не получает наград и обучение с подкреплением здесь становится бесполезным или почти бесполезным.

    В игре, о которой идет речь, нужно управлять персонажем с именем Panama Joe. В итоге он должен добраться до сокровищницы в старом храме. По легенде, эти сокровища принадлежат Монтесуме. Для начала нужно обнаружить первый критически важный для прохождения игры предмет — золотой ключ. Для его обнаружения нужно пройти около 100 шагов. Но это если знать, что примерно делать. Если нет — существует огромное количество возможностей 10018 изначальных действий. Это слишком много для любого ИИ, созданного человеком. Ну и награду здесь не получишь, все очень и очень специфично.

    Один из способов дать компьютеру понять, что делать — продемонстрировать сценарии прохождения. Собственно, не только машины, но и люди учатся выполнять разного рода задачи по примерам. Танцы, действия художника, пайка — все это лучше всего посмотреть 1 раз, а не 100 раз услышать, как нужно делать.

    В DeepMind пришли к мнению, что это лучший способ показать компьютеру способ выполнения задачи с неявным результатом. Технология, созданная специалистами, действительно помогла. Для обучения примером использовались два метода: TDC (temporal distance classification) и CDC (cross-modal temporal distance classification).

    В первом случае ИИ обучают определять расстояние в игровом окружении, замечать разницу между двумя разными фреймами. ИИ также «понимает», что нужно делать для перехода из одного места в другое. Для обучения в YouTube видео выделяют пары фреймов в случайном порядке.

    Во втором случае добавляется еще и «понимание» звукового сопровождения. Звуки практически во всех играх соответствуют выполнению определенных действий. Например, прыжки, получение предметов и т.п. Таким образом, компьютер обучают воспринимать звуки как важные игровые элементы. Видеоряд + звук позволяют компьютеру весьма неплохо продвигаться в процессе прохождения игры.

    Вот действия обученного ИИ в игре Montezuma’s Revenge. Прохождение двух остальных игр, упомянутых в самом начале — здесь.


    Правда, полностью от роли вознаграждений отказаться не удалось — до сих пор ИИ зависит от тех же очков. Но обычный метод обучения системы, который использовался ранее, не позволял добраться хотя бы до золотого ключика, за который дается первая сотня очков. Так что ИИ, как слепой котенок, тыкался во все стороны, не понимая, что делать. Правда, система «подкрепления» также модифицирована.

    В процессе прохождения каждый 16-й видеофрейм записи прохождения игры ИИ сравнивается с фреймами видео прохождения игры людьми. Если сравнение показывает высокую степень схожести, то ИИ получает награду. С течением времени ИИ начинает выполнять ту же последовательность действий, что и человек, для того, чтобы получить схожий фрейм.

    Более того, ИИ во многих случаях показывает лучшие результаты, чем игроки-люди или другие алгоритмы прохождения, включая Rainbow, ApeX, и DQfD.



    В принципе, все это впечатляет, но пока что неясна практическая польза достижений DeepMind. Можно ли использовать способ обучения ИИ, предложенный компанией, где-либо кроме прохождения старых игр? Но зная о достижениях DeepMind в сфере ИИ, можно не сомневаться, что так либо иначе все это можно использовать с практической целью — вряд ли специалисты начали бы работу над вопросом ради «фана».
    Поделиться публикацией
    Комментарии 16
      +1
      Главный вопрос, тестовая выборка включала уровни или ситуации, которых не было в обучающей? а то обычно на ютубе выкладывают реально все и даже больше (типа выход за границу мира).
        +1
        интересно, смогут допилить до такого уровня, чтобы робот с видеокамерами под управлением этой штуки мог «сделать пиццу как на фотографии» или «пожарить лук до готовности»?..
          0
          Думаю, смогут, но для этого ему понадобится мнооого попыток. Ещё лучше, если это будет не один ИИ на робота, а общий, чтоб смог делать попытки параллельно и учиться на ошибках других «тел»
            –1
            то, что это будет не отдельные ИИ, а «общий» — это и так понятно (Алекса\Алиса\Сири и т.д.)
          0
          Игрок человек получает «награду» в виде исследования мира и простого проведения времени в игре. Если изначально каждый шаг равновероятное событие и мы имеем случайное блуждание, почему не награждать за большие отклонения от траекторий процесса?
            0
            Требуется слишком большая глубина просмотра. Идём далеко по коридору за ключом, затем идём совершенно в другую сторону, открываем дверь, далее доходим до сундука, получаем бонус.
            +3

            Так и не понял, там есть хоть какая-то обобщающая способность, или их ИИ научился только повторять людей? Код, повторяющий действия людей в игре по видео можно за пол дня написать.

              0
              Второе.
              0
              Повторюсь: считаю вполне реальной задачей написание ИИ, заменяющего живого программиста-портировщика с одной платформы на другую.
                0

                Тут ИИ не нужен, вам нужен транспилер.

                  0
                  Я про случай, когда исходников нет. Как недавно, например, портировали Bobby Carrot с J2ME на ZX Spectrum. Понятно, что код с нуля написали.
                    0
                    Эта нейронка не пишет код, но делает очень похожую вещь: она смотрит как выглядит игра, а затем сама нейронка становится этой игрой.
                0
                Это кажется некоторым шагом назад. До этого последние достижения ИИ от DeepMind были связаны с отказом от использования человеческого опыта.
                  0
                  По ИИ для Starcraft II нет новостей. Видимо столкнулись со сложностями :(
                  0
                  Для меня стало неожиданным, что в конце он умер) Интересно, когда-нибудь появится ИИ, способный пройти Фаллоут?

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое