3750 дней разработки AI или почему боты всё ещё не захватили покер / Хабр

Идёт именно этот день в разработке. В этот раз хочу затронуть феномен покера, для которого создается AI и поделиться наблюдениями, которые помогут ответить на вопрос из названия. Покер (Техасский безлимитный холдем) – это очень глубокая игра, которая представляет собой модель бизнес-отношений разных субъектов по определённым метрикам, единым для всех участников процесса. Эти метрики позволяют человеку, принимающему решение, понимать, когда инвестиции в “свое внутреннее состояние” могут быть более или менее успешными. Стратегии строятся каждым игроком, исходя из меняющегося контекста, по заранее определенным правилам. Особенность именно безлимитной версии покера в том, что вследствие большого рычага оценки стоимости текущего контекста, число возможных вариаций действий в дереве принятия решений становится огромным в разрезе одной-единственной покерной раздачи. Следующая важная особенность покера в том, что существуют автономные круги торгов. На каждом круге контекст подаётся накопительным итогом, что дает возможность (в ситуациях строго один на один) построить сбалансированную стратегию. В теории, не только один на один, но!.. Проблема сбалансированных стратегий для трёх и более игроков в том, что при “слабой” игре одного из игроков, тот, кто быстрее сможет построить контр стратегию по отношению к “слабому”, то даже при около нулевой игре к третьему, будет выигрывать больше того, что мог бы выиграть по сбалансированной стратегии. Чем больше людей в банке, тем тяжелее становиться играть оптимально, исходя только лишь из правил игры. И вот тут начинается интерпретация анализа полученных данных от предыдущих игр с этими соперниками. Также важно всё, что было до них. Оценка важности каждого отдельного раздела игры, с попыткой (очень часто успешной) его взвесить, с приемлемой функцией забывания давно полученных знаний. Всё это человек делает автоматически, подстраивая веса у себя в голове, в любой ситуации за столом. При условии работы с хадом, для достижения большой выгоды в отдельно выбранной раздаче, а также более или менее дисциплинированном подходе. Базовый, а иногда и продвинутый эксплойт, у человека идёт, что называется, из коробки.

Попытаюсь дать градации оценки игры и что есть понятие “слабая игра”. Для этого погрузимся в покер от лица неискушенного игрока, который познакомился с правилами и вливается в игру. Он начинает наблюдать за игрой, и у него складывается начальное понимание процесса. Оно может расти до какой-то планки, после чего человеку либо не интересно погружаться дальше, либо дорого;) Если игрока устраивает его игра, и она позволяет получать удовольствие в момент выигрышей, а боль поражений не перехлестывает и принимается, то такой процесс может идти довольно долго, может затихнуть полностью, а через какое-то время возобновиться вновь и так по кругу. Большинство людей, играющих в покер, не заботит игра на дистанции. Они верят в правильность своей стратегии, ведь иногда она работает. А этого очень часто достаточно. Интуитивная подстройка под оппонента, это не дополнительная опция, а часть такой стратегии. Я допускаю даже игру в плюс на определенных полях.

Посмотрим на покер в разрезе игрока, который решил относится к игре более внимательно, начал искать объяснения своей недоходной игры. Как минимум, фиксировать раздачи, пытаться понять, почему так происходит, предпринимать набор мероприятий по увеличению доходности. Это база, на которой строят карьеру профессионалы. Именно эти люди составляют большую часть притока новых игроков в индустрию. Те, кто сейчас станут профессиональными игроками и заработают кучу денег при внимательном отношении к игре – их количество сложно переоценить. Трудности, которые их ждут, разнообразны. Множество смежных направлений деятельности, время на разбор раздач, анализ игры, попытка анализировать поле, отдельных оппонентов с большим набором рук. Просчет или “интуитивное придумывание” стратегий, эксперты и тренера, иногда дающие названия ситуациям общими словами, такими как “ГТО”(~~тут чисто гто~~), “РАВНОВЕСИЕ НЭША”(~~ну тут по Нэшу~~), “БЛОКЕР”(~~ммм, тут еще и блокер, понимаешь~~), либо просто, “Тут нужно действие, которое известно!”(~~слушай, вот так делай и всё~~).

Но, если проработать основные ветки игры и правильно полярно(можно и линейно) отыгрывать диапазон, иметь понимание против какого диапазона сейчас идет игра, то становится легко принимать решения. Точечные эксплойты, которые люди делают, исходя из своих собственных хадов, часто работают и успешны. Исключим игру в ситуациях один в один, где при условии наличия статистики и возможности реагировать на нее в рантайме, подстраиваясь к оппоненту в моменте, учитывая огромный спектр факторов, говорящих о его стратегии в данный момент, преимущества AI реализуемы. Так же можно говорить, что и для нескольких игроков можно успешно использовать рантайм подстройку, но тут уже на первый план выходит возможность AI быстро и качественно упаковывать контекст раздачи с учётом всех доступных метрик, обобщить его, просчитать наиболее похожий и сделать обратный маппинг на раздачу. Это очень трудоемкая задача! “Жадная” стратегия в каждого, которая будет выжимать максимум в любой ситуации при всех выполненных условиях, в контексте игры за столом чаще всего будет выглядеть как игра “Маньяка” (покерный стиль игры), реже как “ЛАГ”а. При наличии поля людей, подстройка под такого игрока у всего стола будет моментальная, это будет заметно любому человеку, возможно уже после первой сыгранной раздачи, а все последующие будут только корректироваться. И тут контекст покера принимает форму охоты за одним агрессивным игроком, даже если за столом средние регуляры с огромными проблемами в игре. В основном только эвристика четко может помочь в этих местах. Динамика стола понимается только на уровне экспертизы. RL подход возможен в неполном формате из за расходящегося пространства игры и бесконечно меняющегося контекста. Удачи всем, кто им занимается и большой привет! И вот тут наступает момент, когда регуляры с хадом, которые просто не сдались и имеют хоть какие-то способности к анализу и принятию решений, на полях, с присутствием новых игроков, с проблемами в игре, могут на уровне своего мозга выдерживать почти любую конкуренцию и зарабатывать с момента запуска онлайн-покера и по сегодняшний день.

Теперь посмотрим на игру глазами человека, который выигрывает в покер в год от $100K. Подобные люди играют в разных местах. Обычно это разные площадки с высокими лимитами и, зачастую, не онлайн. Медийных личностей, играющих для дополнительного заработка от рекламы, на одной платформе, единицы. В основном это люди у которых все возможности по использованию AI есть. Понимание игры у таких игроков практически полное. Тут за ошибками может следить даже нанятый штат аналитиков. Уровень подстройки и конкретно игры может быть высочайшим. Преимущества AI над такими игроками практически отсутствуют.

И нет смысла смотреть глазами тех кто может себе позволить играть с дополнительными преимуществами на площадках и вводить сложные возможности управления игрой, так как мы верим в службы безопасности румов и надеемся, что они понимают, что при известных карманных картах, детект такой игры – решаемая задача.

Покер не умирает с присутствием AI, он меняется, становится более совершенным. Тенденции исполнений плюсовых стратегий раскручиваются, повторяются, заливаются и забываются. На их места приходят новые и, пока что, такой круговорот идёт уже очень долго, перспектива к изменению не особо проглядывается. Кроме роста “исключительных” игроков ничего нового не наблюдается. Конкуренция регуляров стала выше, и румы по непонятным причинам борются с ними. Работать над игрой нужно больше, процент комиссии постоянно растет. Как вид деятельности – это очень тяжелый и рискованный метод заработка. Невероятно, но факт: румы чинят профессионалам всё новые и новые препятствия к присутствию. Но не все. Многие выступают и борются за чистый трафик. Также идёт подпитка покера от мобильных устройств. В большинстве стран уровень самокритичности к своим действиям у людей не такой высокий, как покрытие гаджетами, что обеспечивает приток новых игроков. Большинству тех, кто играет в покер, глубоко не важно, что происходит внутри этого контекста. Они никогда в него не погрузятся глубоко. Это даёт им те эмоции, на которые у них был запрос, и всё! Надеюсь, я примерно ответил на вопрос почему сильный AI пока что не поглотил покер. Буду держать вас в курсе.