Как стать автором
Обновить

Комментарии 6

Крестики-нолики, шахматы, шашки, рэндзю, го, го-моку, сёги — это все позиционные игры с полной информацией.

А вот карточные игры (преферанс, покер, бридж, да хотя бы и дурак) — это игры с неполной информацией. А где неполная информация, там и блеф. Где блеф — там и смешанные стратегии решений.

Если теоретически понятно, что ИНС может принимать решение в условиях полной информации (по сути, у ИНС на выходе набор дискретных значений, определяющих результат), то для в случае смешанных стратегий на выходе не должно быть ничего подобного — только нечеткие рекомендации по выборе того или иного решения. И как обучать ее в этом случае — абсолютно непонятно. Ведь абсолютно одинаковые решения в абсолютно одинаковых позициях могут привести к абсолютно различным последствиям (зависит как от скрытой информации, так и от возможности применения тех же смешанных стратегий противником).

Разве что многократным увеличением времени обучения (количества сыгранных партий). Страшно подумать об объемах вычислений.

Тем не менее, в покер (техасский холдем) ИНС научили играть. В 2015 году ИНС Cepheus играла и выигрывала в heads-up limit Texas holdem, а в 2017 году DeepStack рвала профессионалов людей в heads-up no-limit. И при этом они умели блефовать. Как они это делают? Как научить ИНС играм в смешанных стратегиях?

Вы правы, в покере для каждой конкретной ситуации существует идеальная смешанная стратегия - но там достаточно малое пространство в целом - чек/бет для первой руки, колл/рейз/пас для второй. В безлимитном это чуть осложняется произвольным размером ставки, но в целом тоже решаемо. Плюс, сама "партия" длится очень недолго, что позволяет очень быстро производить симуляции и подстраивать стратегии. Если интересно - погуглите GTO Solver - как они в целом работают

Ну про GTO я знаю, читал. А для преферанса даже начал разрабатывать «теорию угадаечных мизеров», т.е. в каких случаях лучше выбирать не «лучший» снос, а случайный, вынуждая противников угадывать его. Да только руки не доходят серьезно этим заняться.

В данном же случае меня интересуют более приземленные задачи. Не теоретические, а практические. Как обучить ИНС выдавать смешанные стратегии?

Т.е. ИНС хорошо (на самом деле — так себе) зарекомендовала себя в задачах классификации (в т.ч в распознавании образов) и кластеризации. В прогнозировании ошибается не намного чаще синоптиков. Но как реализовать обучение ее смешанным стратегиям?

Есть, допустим, алгоритм Робинсон-Брауна обучения (не ИНС, а матричных игр) смешанным стратегиям. Но как его прикрутить к ИНС, чтобы она выдавала не «лучший снос такой-то», а «в 50% следует выбрать первый вариант сноса, в 40% — второй, и в 10% — третий»?

— А как же Вы селёдку без водки будете есть? Абсолютно не понимаю. © «Дни Турбиных».

Мне одному кажется странным, что в рейтинге шахматных программ нет Alpha Zero? Это следующий этап развития Alpha Go, универсальная версия, которая довольно успешно научилась играть в шахматы и даже "разработала" свой уникальный стиль.

Рейтинги вычисляются на базе результатов тестовых партий в стандартизованных условиях, заданных авторами рейтинга. Для этого им как минимум нужна копия программы. Поскольку АльфаЗеро недоступна, то и в рейтинг-листах её нет. Да и не запустится она на указанных CPU, так как плюсом нужны ещё TPU.

Можно конечно прикинуть рейтинг "на пальцах", с соответствующей для такой операции точностью. Но давайте попробуем. АльфаЗеро набрала примерно 60 % очков против Stockfish 8. Это около 70 пунктов рейтинга. У восьмого Стокфиша рейтинг 3371, значит у Альфы будет около 3440. Но это плюс-минус лапоть, поскольку ещё очень много факторов нужно учесть.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий