Разработчики объяснили, как ИИ обыграл покерных профессионалов в безлимитный холдем на дистанции 120 000 рук


    Профессиональный игрок в покер Джейсон Лес (Jason Les) разговаривает с профессором Туомасом Сэндхольмом (Tuomas Sandholm) из университета Карнеги — Меллон во время хедзапа с ботом Libratus. Джейсон проиграл программе почти миллион условных долларов, больше всех остальных профессионалов

    В последнее время разработчики систем слабого ИИ часто сравнивают эффективность своих программ в игровом противостоянии против человека. То есть попросту в играх. Компьютер уже победил человека в шашки, шахматы и го. В этих играх с полной информацией в любой момент игры все игроки имеют полную информацию о состоянии игры, то есть о позиции и всех возможных ходах любого из игроков.

    В отличие от таких детерминированных ситуаций, в играх с неполной информацией часть информации о состоянии игры скрыта от игрока — например, карты оппонента. Безлимитный техасский холдем как раз является одной из таких игр. Кроме закрытых карт оппонента здесь элемент неопределённости добавляется за счёт произвольного размера каждой ставки. С учётом этого количество возможных исходов оценивается в 10161.

    Пожалуй, техасский холдем — самая популярная в мире игра с неполной информацией. Ежедневно в онлайне разыгрывают миллиарды долларов. Использование ботов и раньше было строго воспрещено, а сейчас у владельцев покеррумов появилась новая причина для мониторинга процессов на компьютере игрока, поскольку программа Libratus надёжно забирает стеки в хедзапах даже у лучших профессионалов.

    Победный матч Libratus против четырёх покерных профессионалов прошёл 11-30 января 2017 года в рамках соревнования “Brains vs. AI”.


    Стеки программы Libratus и четырёх оппонентов на протяжении 20 дней соревнования

    ИИ сыграл 120 000 рук в хедзапах и по итогу осталась в плюсе на $1 766 250 условных долларов. Сами игроки оказались очень впечатлены игрой программы, которая умело меняла свою стратегию каждый день, приспосабливаясь к действиям игроков.

    Конечно, игра шла не на настоящие деньги, поэтому сами игроки были в какой-то мере расслаблены и не слишком ответственно относились к игре, чем если б играли на собственные деньги. Да и им приходилось проводить за компьютером многочасовые сессии каждый день, что выматывает физически. Тем не менее, столь надёжный выигрыш программы не может не впечатлять. Выходит более 14 больших блайндов на сотню рук. По подсчётам разработчиков, выигрыш такой суммы на такой длинной дистанции с вероятностью 99,7% исключает влияние удачи, то есть это действительно статистически значимая победа.

    Сейчас разработчики программы из университета Карнеги — Меллон опубликовали научную статью, в которой объяснили архитектуру и принципы обучения ИИ, который обыграл профессионалов в покер.

    Если вкратце, то для упрощения вычислений программа сгруппировала 10161 возможных исходов по схожим рукам (например, флеш до короля и флеш до дамы) и схожим размерам ставок. Libratus состоит из трёх модулей. Первый — это подробная заранее составленная стратегия, как играть в первых раундах (диапазон рук для рейза с каждой позиции). Далее стратегия прописана не так жёстко. Вторая стратегия во многом зависит от хода игры, то есть выпавших карт и поведения оппонента с учётом его диапазонов и статистики. Третья модель — стратегия игры специально против непредсказумеых противников, то есть людей. Эта третья стратегия постоянно модифицировалась в реальном времени. Если человек предпринимал какой-то неожиданный манёвр для программы, то она сохраняла его и вписывала в свою модель, изменяя ту с учётом новых данных и самосовершенствуясь.

    По мнению разработчиков, успешная работа в ситуациях с неполной информацией даёт ИИ преимущество не только в играх. Дело в том, что такие ситуации повсеместно встречаются в реальной жизни. Практически вся человеческая жизнь, почти все социальные и экономические отношения представляют собой «игры» с неполной информацией. Поэтому владение соответствующим инструментарием крайне важно для успешного выживания ИИ в реальном мире. На практике подобные программы можно использовать, например, для выработки эффективных стратегий в системах безопасности, экономических моделях, политических моделях и других системах с неполной информацией.

    Используемые в программе Libratus техники во многом независимы от сферы применения, и поэтому их можно использовать в программах иного назначения.

    Научная статья опубликована 17 декабря в журнале Science (doi: 10.1126/science.aao1733, pdf).

    Похожие публикации

    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 14

      +1
      Судя по графику, программа подстроилась под конкретного игрока. И еще я не могу представить себя сосредоточенно играющим две недели подряд, отупение и механизация игры на такой дистанции неизбежна -> предсказуемость ходов.
        –2
        В ЗАГОЛОВКЕ НЕДОПЕЧАТКА
        Разработчики объяснили, как ИИ обыграл покерных профессионалов в белимитный холдем на дистанции 120 000 рук


        P.S.
        Извините, хабрасообщество: прекрасно знаю о правилах капслока и указания на ошибки в личных сообщениях автору статьи. Но в случае Ализара делаю намеренное исключение. Потому что у него ошибки это не исключения, а правила «создания» статьи.
          +2
          Что вы от него хотите, нейросеть еще не освоила русский язык в совершенстве.
          –3
          азино 777, Витя АК.
            +2
            Круто. Еще бы знать что такое «холдем»… И чем техасский (как оказывается самый популярный в мире) отличается от гм… скажем канзасского… и 120 рук — это длиннее чем 38 попугаев или нет…
              0
              Важнее то, что игра была в вариант «хэдсап» — один на один, если говорить по-русски. Так что эта новость подобна той, где ИИ обыграл профессионала в ДОТУ. Где потом поясняется, что игра велась по специальным урезанным правилам, по которым ИИ выигрывает просто из-за большей скорости реакции.
              +1
              Ну чет пока нельзя это считать победой, если она играла на «фантики». Вот когда заработает миллион долларов против профи — тогда, да, без вопросов. Покер игра на деньги, а не на интерес. И покер на деньги отличается от покера на фантики, как чемпионат мира от игры на щелбаны в школе. И если я обыгрываю свою подружку «на раздевание», это не значит что я и Фила Айви обыграю.
                0

                Как бы не наоборот… Когда есть реальный шанс потерять свои деньги, люди становятся более "зажатыми" и еще более предсказуемыми.

                  +1
                  Как-то на сборах играл в преферанс. Вообще я почти не умею в преф. А были парни чуть ли не профи. Студенты ж. Ставки были низкие, и к своему удивлению я выиграл некую сумму — хватило даже на бутылку минеральной воды (и это было актуально, там жарко). Так вот почему я выиграл? Потому что наши профи играли очень рискованно — ставки-то маленькие.
                  0
                  Фила Айви на раздевание?
                  +2
                  Использование ботов и раньше было строго воспрещено, а сейчас у владельцев покеррумов появилась новая причина для мониторинга процессов на компьютере игрока

                  А в чем сложность запускать такого бота на изолированной машине и передавать ему информацию о картах — своих и на столе?
                    0
                    Насколько мне известно, это вычисляется. Просто запускают так же программу и смотрят, какие она ходы предпочла в подобной ситуации. Чем больше совпадений, тем больше шансов, что играет программа. В шахматах это именно так вычислялось неоднократно, я как/то читал целое исследование.
                      0
                      Сетевые процессы и сторонние приложения обычно жестко мониторятся, и покеррумы вправе отправить игрока в бан по любому проявлению подозрительной активности, о чем игрок предупреждается при регистрации. Более того, одним из условий регистрации может быть наличие доступа к камере игрока для периодического фотографирования того, что за клавиатурой реальный человек и его действия похожи на то, что передается от него по сети. Поэтому даже система с видеокамерами для считывания картинки с монитора и манипуляторами для ввода действий игрока (т.е. система, полностью внешняя к компьютеру, на котором исполняется покерный клиент) такую проверку не пройдет.
                      +2
                      Думаю теперь у разработчиков данного ИИ больше не будет проблем с финансированием…

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое