DeepMind не остановить: ИИ теперь умеет играть в Quake III Arena / Хабр

Компания DeepMind, бывшая некогда подразделением корпорации Google, занимается разработкой ИИ (слабой его формы) для различных целей. Сейчас команда DeepMind активно участвует в создании разных форм ИИ, заточенных для игр, как логических, настольных, так и шутеров. Игр много — это и го, и StarCraft, а теперь — и Quake III Arena.

Разработчики заявили в своем блоге о том, что они обучили систему ИИ играть в Quake III Arena примерно так, как это делает человек. То есть компьютерная система научилась адаптироваться к быстро изменяющимся условиям игры, включая переключение уровней и их элементов. Традиционно, при обучении использовалась система с подкреплением.

В ходе такого вида обучения компьютер получает награду или штраф в зависимости от того, успешно идет прохождение или нет. Обычно проблема компьютера в том, что он не может приспособиться к изменившимся условиям достаточно оперативно — так, как это делает человек. Несмотря на то, что нейросети уже давно умеют учиться на собственных ошибках, компьютерные игры сложны для них, если системе неизвестны изначальные условия.

Систему обучали играть в режиме Capture The Flag. В этом случае игрок должен пытаться захватить флаг соперника, но ни в коем случае не дать захватить собственный. Если какая-либо из команд сможет в течении пяти минут захватить и удержать флаг соперника максимальное количество раз, то такая команда служит победительницей.

Для того, чтобы не дать ИИ просто вызубрить особенности уровня, включая расположение комнат, зданий и т.п., нейросеть каждый раз заставляли играть на новом уровне. В этом случае ИИ развивал собственную стратегию игры без «зубрежки». Компьютер наблюдал за действиями других игроков, изучал «географию» левела и действовал соответственно ситуации.

Причем разработчики из Deepmind обучали ИИ играть целой командой, которая состоит из разных агентов. Вся система получила название For The Win (FTW).

Так вот, For The Win (FTW) научился управлять своей командой, координируя и направляя действия каждого агента. Задача, как и говорилось выше, сохранение собственного флага и захват чужого. После того, как компьютер достиг определенного уровня мастерства, DeepMind предложили сыграть с ним обычным игрокам на специальном турнире.

Все в нем приняли участие 40 человек. Команды в турнире были смешанные — то есть в одной команде могли быть и люди, и агенты ИИ. По результатам игры стало ясно, что ИИ в чистом виде одержал больше побед, чем команды людей. В смешанных командах ИИ показывал более высокий уровень сотрудничества, чем обычно демонстрируют люди. Так, компьютер, если это было необходимо, выполнял роль ведомого или принимал непосредственное участие в атаке на базу противника.

По мнению разработчиков, принципы работы, которые были использованы при создании For The Win (FTW), вполне могут быть использованы и для игры в другие тайтлы — например, StarCraft II или Dota 2.

В начале этого месяца DeepMind продемонстрировала процесс обучения ИИ для прохождения олдскульных игр — на Atari. Здесь также использовался принцип обучения с подкреплением, а научить ИИ проходить старые игры достаточно сложно, поскольку многие действия протагониста весьма неявные.

В качестве основы была взята игра Montezuma’s Revenge. Здесь нет ни четкого задания, ни направления, куда нужно идти, ни понимания, что нужно собирать или против кого выступать. Для обучения примером использовались два метода: TDC (temporal distance classification) и CDC (cross-modal temporal distance classification).

Компьютер обучался проходить игру при помощи видео прохождений с YouTube — их на сервисе немало. В процессе прохождения сравнивались фреймы записи видео прохождения уровней ИИ и его «учителей» с YouTube. Если сравнение выдавало высокий уровень схожести, ИИ получал награду. Как оказалось, спустя некоторое время ИИ выполняет ту же последовательность действий, что и человек.

Что касается StarCraft, о котором говорилось выше, то в 2017 году человек все же одолел машину, причем всухую, со счетом 4:0. Профессиональный игрок в StarCraft Сон Бён-гу (Song Byung-gu) тогда сражался с четырьмя различными StarCraft ботами.