Comments / Profile of Pochemuk / Habr

Григорьев Андрей @Pochemuk

Пользователь

«Потомок» AlphaGo самостоятельно научился играть в шахматы, сеги и го

Pochemuk Dec 7 2018 at 14:38

Ну Вы верно уловили суть…

За покер не могу говорить, т.к. ривер от ретривера не отличу, поэтому поговорим за преферанс. Вернее, за такой тип игры, как «мизер».

Для тех, кто не в курсе, поясню: мизер, это такой заказ, при котором мизерящий обязуется не взять ни одной взятки. Если выполнил это обязательство — получает крупную премию. Если нет — крупный штраф за каждую взятую взятку.

Так вот, по правилам преферанса. прикупив две карты из прикупа, мизерящий скидывает две любые карты в «снос». Причем, его противники этих карт не видят.
У него после сноса может остаться такая комбинация карт, при которой он заявку «мизер» выполнит автоматом при любом раскладе у противников. В этом случае говорят, что мизер чистый.
Но чаще в одной или нескольких мастях остаются такие комбинации, которые с некоторой вероятностью могут дать ему взятку или несколько. Такие комбинации называются «дырами». В том смысле, что в них мизерящему что-то прилетит.

Так вот, допустим у мизерящего два варианта сноса, но при любом остается «дыра». Вероятность того, что на первую дыру получим взятку составляет 70%, а на вторую — 60%.

Казалось бы, оставлять вторую дыру выгоднее всегда… И это называется чистой стратегией.

Примем упрощенную модель, при которой вероятности ловли дыр являются независимыми.

Тогда с вероятностью (1-0,7)*(1-0,6)=12% не ловится ни одна дыра.
С вероятностью 0,7*(1-0,6)=28% ловится только первая дыра.
С вероятностью 0,6*(1-0,7)=18% ловится только вторая дыра.
С вероятностью 0,7*0,6=42% ловятся обе дыры.

Но давайте предположим, что мизерящий сносит случайным образом с частотами 50/50.

Тогда от 28% и от 18% останется только половина. Потому что в половине случаев будет оставлена не та дыра, которая ловится.
И от 42% останется только половина. Потому что противники будут ловить не ту дыру, которая оставлена (не угадают).

Итого, при такой стратегии сноса (случайной) мизер будет пойман всего лишь в 0,5*(0,28+0,18+0,42)=44%.
А сыграет его мизерящий с вероятностью 0,12+0,5*(0,28+0,18+0,42)=56%.

Согласитесь, что 56% сыграть мизер при смешанной стратегии сноса гораздо лучше вероятности 40% при оставлении всегда второй дыры…

Конечно, модель очень упрощена. Она не учитывает, что при некоторых раскладах карт у противников количество взяток на разные дыры может существенно отличаться. Но суть, надеюсь, описал понятно.

Так вот, какие алгоритмы должны применяться в ИНС, чтобы в конце концов мы получили именно равные частоты для обоих вариантов сноса, а не явное предпочтение оставлению второй дыры?

Я так краем глаза слышал, что метод обратного распространения ошибки здесь не подходит. Нужно применять какие-то другие методы. Но вот какие именно — не помню и не знаю… Может быть подскажете?