Алгоритм Uber добился сверхчеловеческих показателей в играх на Atari 2600



    ИИ-алгоритм Go-Explore, созданный компанией Uber AI, проходит любую игру на Atari 2600 с показателями, превышающими средние человеческие, включая игры, в которых ранее искусственный интеллект испытывал трудности. Как сообщают авторы алгоритма, такого результата удалось достичь с помощью системы, которая может запоминать перспективные состояния и возвращаться к ним, прежде чем приступить к повторному исследованию игры.

    Go-Explore исследователи представили в начале 2019 года. Сейчас он показывает результаты «на порядок лучше», чем у своих предшественников, во многих играх, пишет Engadget. Go-Explore стал первым алгоритмом, преодолевшим все уровня Montezuma’s Revenge и получившим «почти идеальный» показатель в Pitfall.

    «Эти две игры Atari — Montezuma’s Revenge и Pitfall — служат эталоном для обучения с подкреплением. В Montezuma’s Revenge Go-Explore набирает в среднем более 43 тыс. баллов. Его максимум составляет почти 18 млн баллов, что превосходит мировой рекорд среди игроков-людей. В игре Pitfall средний балл Go-Explore составляет почти 60 тысяч», — сообщали авторы алгоритма в посвящённой ему статье.

    При этом, как указывает Джефф Клун из Uber AI, алгоритм Agent57 компании DeepMind достиг аналогичных показателей, но «совершенно другими методами».

    Как и в случае с другими подобными проектами, целью Uber AI было не просто создать ИИ, который мог бы поставить рекорды в старых играх. Исследователя также успешно протестировали Go-Explore в нескольких симуляциях простых роботов. Uber AI надеются, что навыки, которые Go-Explore приобрёл в играх Atari, могут помочь улучшить навигацию для роботов и автономных автомобилей.

    Компания DeepMind сообщала об аналогичных успехах нейросети Agent57 в начале апреля. Искусственный интеллект смог побить средний результат игроков-людей в 57 играх приставки Atari 2600. Система обучалась в среде Arcade Learning которая представляет собой коллекцию классических игр, которые используются в испытаниях моделей глубокого обучения. Agent57 стал первым алгоритмом, который смог превзойти базовые показатели человека. В частности, Agent57 добился сверхчеловеческого успеха в играх Pitfall, Montezuma’s Revenge, Solaris и Skiing.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 3

      –2

      Теперь научить его хохмы и комментарии произносить, и на твитч — зарабатывать

        –2
        uber = skynet
          +1

          NameError: name 'skynet' is not defined

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое