Как стать автором
Поиск
Написать публикацию
Обновить

DeepMind представила алгоритм игрока Player of Games

Время на прочтение3 мин
Количество просмотров3.8K

DeepMind представила систему искусственного интеллекта Player of Games, которая может играть в покер, шахматы, Go и другие игры. Компания давно инвестирует в игровые системы искусственного интеллекта. В DeepMind отмечают, что игры, хотя и не имеют очевидного коммерческого применения, демонстрируют когнитивные способности искусственного интеллекта. 

Абстрактное представление игры Scotland Yard в Player of Games / DeepMind
Абстрактное представление игры Scotland Yard в Player of Games / DeepMind

Player of Games, в отличие от других игровых систем DeepMind, разработанных ранее (AlphaZero, AlphaStar) может хорошо работать как в играх, где работает стратегия (шахматы), так и в играх, где важны другие факторы (покер).

Player of Games в рамках таких игр учится рассуждать о целях и мотивах других их участников, что прокладывает путь для ИИ, который сможет успешно работать с другими задачами, в том числе решать вопросы, требующие переговоров и достижения компромисса. 

«Player of Games учится играть в игры с нуля, просто постоянно играя самостоятельно», — сказал старший научный сотрудник DeepMind Мартин Шмид, один из соавторов Player of Games. — «Это шаг к общности — Player of Games может играть как в игры с идеальной, так и с несовершенной информацией, жертвуя при этом некоторой производительностью».

Хотя Player of Games чрезвычайно универсален, он не может играть в любую игру. Шмид говорит, что система должна учитывать все возможные перспективы каждого игрока в данной игровой ситуации. Хотя в играх с идеальной информацией есть только одна перспектива, в играх с несовершенной информацией таких позиций может быть много — например, около 2000 в покере. Более того, в отличие от MuZero, преемника DeepMind AlphaZero, который подбирает правила для каждой игры, Player of Games нуждается в ознакомлении с ними.

В своем исследовании DeepMind оценила Player of Games, обученный с использованием чипсетов ускорителей Google TPUv4, по игре в шахматы, Go, техасский холдем и стратегической настольной игре Scotland Yard. Для Go был организован турнир на 200 игр между AlphaZero и Player of Games, а для шахмат DeepMind сравнил Player of Games с лучшими системами, включая GnuGo, Pachi и Stockfish, а также AlphaZero. Матч по техасскому холдему от Player of Games проводился с помощью общедоступного Slumbot. В Scotland Yard алгоритм играл против бота, разработанного Джозефом Антониусом Марией Нейссеном, которого соавторы DeepMind прозвали «PimBot». В шахматах и Go Player of Games доказал преимущество перед Stockfish и Pachi в определенных, но не во всех конфигурациях, и выиграл 0,5% игр у AlphaZero. Несмотря на эти проигрыши, DeepMind считает, что Player of Games выступал на уровне «лучшего человека-любителя» и, возможно, даже на профессиональном уровне.

Player of Games оказался лучшим в покере и Scotland Yard. 

Шмид считает, что Player of Games — это большой шаг к действительно общим игровым системам, но далеко не последний. Общая тенденция в экспериментах заключалась в том, что алгоритм работал лучше при наличии большего количества вычислительных ресурсов (игрок обучен на наборе данных из 17 млн «шагов» или действий только для игры в Scotland Yard), и Шмид ожидает, что этот подход будет масштабироваться в обозримом будущем. 

По оценкам экспертов ИИ, обучение AlphaZero обходится в десятки миллионов долларов. DeepMind не раскрывает бюджет на исследования для Player of Games, но он вряд ли будет ниже. 

Название алгоритма Player of Games отсылает к научно-фантастическому роману шотландского писателя Иэна М. Бэнкса, опубликованном в 1988 году. Он повествует о Джернау Гургехе, известном своими способностями к настольным играм.

Комментаторы отмечают, что работу алгоритма было бы интересно проверить в других карточных играх.

В прошлом месяце DeepMind показала, как ее система искусственного интеллекта помогает математикам в поиске информации для разработки теорем. Совместная работа исследователей и ИИ уже привела к прорыву в гипотезе в области топологии и теории представлений, а также к доказанной теореме о структуре узлов.

В октябре DeepMind впервые отчиталась о прибыльности. Компания закончила 2020 год с прибылью в £43,8 миллиона ($59,6 миллиона).

Теги:
Хабы:
Всего голосов 11: ↑11 и ↓0+11
Комментарии6

Другие новости

Ближайшие события