Разработчики объяснили, как ИИ обыграл покерных профессионалов в безлимитный холдем на дистанции 120 000 рук / Хабр

Профессиональный игрок в покер Джейсон Лес (Jason Les) разговаривает с профессором Туомасом Сэндхольмом (Tuomas Sandholm) из университета Карнеги — Меллон во время хедзапа с ботом Libratus. Джейсон проиграл программе почти миллион условных долларов, больше всех остальных профессионалов

В последнее время разработчики систем слабого ИИ часто сравнивают эффективность своих программ в игровом противостоянии против человека. То есть попросту в играх. Компьютер уже победил человека в шашки, шахматы и го. В этих играх с полной информацией в любой момент игры все игроки имеют полную информацию о состоянии игры, то есть о позиции и всех возможных ходах любого из игроков.

В отличие от таких детерминированных ситуаций, в играх с неполной информацией часть информации о состоянии игры скрыта от игрока — например, карты оппонента. Безлимитный техасский холдем как раз является одной из таких игр. Кроме закрытых карт оппонента здесь элемент неопределённости добавляется за счёт произвольного размера каждой ставки. С учётом этого количество возможных исходов оценивается в 10¹⁶¹.

Пожалуй, техасский холдем — самая популярная в мире игра с неполной информацией. Ежедневно в онлайне разыгрывают миллиарды долларов. Использование ботов и раньше было строго воспрещено, а сейчас у владельцев покеррумов появилась новая причина для мониторинга процессов на компьютере игрока, поскольку программа Libratus надёжно забирает стеки в хедзапах даже у лучших профессионалов.

Победный матч Libratus против четырёх покерных профессионалов прошёл 11-30 января 2017 года в рамках соревнования “Brains vs. AI”.

Стеки программы Libratus и четырёх оппонентов на протяжении 20 дней соревнования

ИИ сыграл 120 000 рук в хедзапах и по итогу осталась в плюсе на $1 766 250 условных долларов. Сами игроки оказались очень впечатлены игрой программы, которая умело меняла свою стратегию каждый день, приспосабливаясь к действиям игроков.

Конечно, игра шла не на настоящие деньги, поэтому сами игроки были в какой-то мере расслаблены и не слишком ответственно относились к игре, чем если б играли на собственные деньги. Да и им приходилось проводить за компьютером многочасовые сессии каждый день, что выматывает физически. Тем не менее, столь надёжный выигрыш программы не может не впечатлять. Выходит более 14 больших блайндов на сотню рук. По подсчётам разработчиков, выигрыш такой суммы на такой длинной дистанции с вероятностью 99,7% исключает влияние удачи, то есть это действительно статистически значимая победа.

Сейчас разработчики программы из университета Карнеги — Меллон опубликовали научную статью, в которой объяснили архитектуру и принципы обучения ИИ, который обыграл профессионалов в покер.

Если вкратце, то для упрощения вычислений программа сгруппировала 10¹⁶¹ возможных исходов по схожим рукам (например, флеш до короля и флеш до дамы) и схожим размерам ставок. Libratus состоит из трёх модулей. Первый — это подробная заранее составленная стратегия, как играть в первых раундах (диапазон рук для рейза с каждой позиции). Далее стратегия прописана не так жёстко. Вторая стратегия во многом зависит от хода игры, то есть выпавших карт и поведения оппонента с учётом его диапазонов и статистики. Третья модель — стратегия игры специально против непредсказумеых противников, то есть людей. Эта третья стратегия постоянно модифицировалась в реальном времени. Если человек предпринимал какой-то неожиданный манёвр для программы, то она сохраняла его и вписывала в свою модель, изменяя ту с учётом новых данных и самосовершенствуясь.

По мнению разработчиков, успешная работа в ситуациях с неполной информацией даёт ИИ преимущество не только в играх. Дело в том, что такие ситуации повсеместно встречаются в реальной жизни. Практически вся человеческая жизнь, почти все социальные и экономические отношения представляют собой «игры» с неполной информацией. Поэтому владение соответствующим инструментарием крайне важно для успешного выживания ИИ в реальном мире. На практике подобные программы можно использовать, например, для выработки эффективных стратегий в системах безопасности, экономических моделях, политических моделях и других системах с неполной информацией.

Используемые в программе Libratus техники во многом независимы от сферы применения, и поэтому их можно использовать в программах иного назначения.

Научная статья опубликована 17 декабря в журнале Science (doi: 10.1126/science.aao1733, pdf).