Око за око

В известной проблеме теории игры «Проблема заключенного» предательство является единственным верным решением. Однако если также не давать двум сторонам договариваться друг с другом, но повторять ситуацию множество раз подряд, то такая стратегия поведения станет не самой выгодной. Выбор верной стратегии может помочь ответить на вопросы об эволюции человеческого социума, появление фактов сотрудничества в личных и деловых отношениях, соотношения моральных норм и собственных интересов.



В конце 1970-х годов Роберт Аксельрод (математик, политолог, ныне профессор Мичиганского университета) придумал эксперимент, заключающийся в моделировании поведения субъектов, поставленных перед многократно повторяющейся дилеммой заключенного (IPD или iterated prisoner’s dilemma).

Правила игры были следующие:
  • Каждый субъект придерживается определенной стратегии, которая задается его программой. На первый турнир было представлено 14 программ, разработанных различными авторами, и одна программа, действующая по случайному принципу.
  • Каждый субъект помнит историю своих взаимоотношений и может делать выбор, основываясь на этой истории.
  • Игра проводится по круговому принципу в случайном порядке.
  • Если оба субъекта отказываются от сотрудничества они получают по 1 баллу (в терминологии заключенного это означает дачу показаний на подельника).
  • Если они соглашаются на сотрудничество, то получаются по 3 балла (оба молчат).
  • Если один отказывается, а второй нет, то отказавшийся (обманщик) получает 5, второй 0.
  • Победитель определялся по сумме выигрышей после 200 раундов.

Простейшие алгоритмы всегда сотрудничали (простофили) или всегда обманывали. Большинство подчинялось сложным моделям поведения. Но победителем вышла программа Tit-For-Tat (TFT, око за око), психолога Анатолия Рапопорта из университета Торонто. Логика действий программы была очень проста – первый раунд безусловное согласие на сотрудничество, а в последующих раундах повторение того, что делал этот же оппонент в предыдущем. Максимально возможный результат из 200 раундов это 1000 очков. Победитель получил 504. Восемь первых мест забрали программы, которые в первый контакт шли на сотрудничество, их стали называться «приятными». Они получили от 472 до 504 очков, в то время как самая удачная «неприятная» программа 401.

На второй турнир было выставлено уже 62 программы, алгоритмы многих были доработаны, в том числе с учетом противостояние с TFT. Интересно отметить, что TFT ни в каком случае не может заработать больше, чем её партнер, но победителем по сумме очков вновь оказалась TFT. Программа активно сотрудничала с другими кооператорами, но и немедленно отвечала обманом на обман.

Однако в реальном мире субъекты действуют на так детерминистки как программы, поэтому в следующих экспериментах была включена возможность ошибки, когда субъект выбирает действие случайным образом. При этом программа TFT при встрече со своим двойником стала попадать в бесконечный цикл взаимной мести, когда одно ошибочное действие запускало переключающиеся триггеры. При уровне шума 10% она уже не становилась победительницей. Следующие модификации программы CTFT и GTFT, включающие возможность прощать обманы, значительно улучшили результаты при высоком уровне шумов.

Позднее эксперимент расширили, включив в него элементы Дарвиновской эволюции. После каждого раунда субъекты смогли выбирать себе новую стратегию, где вероятность выбора каждой стратегии была пропорциональна набранному ей количеству очков. При этом в начале игры TFT и другие кооперативные стратегии практически исчезали из популяции и балом правили мошенники! Средний выигрыш опускался практически до единицы, но через какое-то время остатки стратегий TFT вдруг брали верх, а позднее уступали дорогу тем стратегиям, которые были более склонны к прощению. Вот тогда в мире воцарялась гармония и сотрудничество. Однако такой результат не предначертан. При повторах или расширении эксперимента на сотни тысяч поколений в отдельные эпохи верх одерживали то одни, то другие стратегии, многократно повторялись смутные времена, когда царствовали обманщики и средний выигрыш был около единицы.



Даже в благополучные эпохи в обществе всеобщего благоденствия ваш приятель или контрагент может оказаться «Павловым». В ранних экспериментах ничем себя не проявившая программа WSLS с простой логикой, основанной на повторении стратегии в случае удачи, и её смены в случае неудачи (win-stay, lose-shift), оказывается настоящим оборотнем. Как только честный бизнес не идет, и единожды удачно обманув простачка, она его обманывает вновь и вновь пока ей это приносит профит.

Среда моделирования мультиагентных систем NetLogo содержит одну из простых реализаций повторяющейся дилеммы заключенного (модель PD N-Person Iterated). В модели энное количество субъектов (черепашек в терминологии NetLogo) двигаются по полю, и, сталкиваясь друг с другом, делают тот или иной выбор, основываясь на истории своих взаимоотношений. На самом деле эти черепашки помнят только единственный случай контакта с каждым соперником, и не имеют доступа к полной истории. Изначально задано по 10 черепашек использующих 6 разных стратегий: стратегия случайного выбора, кооперативная, обманывающая (defect), TFT, непрощающая (unforgiving, отказывается от любого сотрудничества после единичного обмана), и unknown, которая по умолчанию запрограммирована аналогично TFT. И аналогично эволюционной модели первые сотни итераций самыми успешными по сумме выигрышей оказываются обманщики (их средний выигрыш близок к 5 очкам). Но постепенно их результат ухудшается и в лидеры выходит TFT со средним баллом 2,7 очка, против 2 у обманщиков. При исключении кооператоров обманщики получают в среднем только 1,4, а при исключении и случайной стратегии, обманщикам остается только обманывать друг друга – они получают в среднем 1 очко.

На основе проведенных экспериментов могут быть сформулированы 4 заповеди принципа для успеха в этой игре, которые могут быть перенесены и в реальную жизнь:
  • Начинай с доверия, и отвечай добром на добро
  • Реагируй на обман немедленно и адекватно
  • Будь готов простить
  • Исходи из того, что совместно можно достичь большего, чем по отдельности

Как было выше показано они не гарантируют успеха в короткий период, результат сильно зависит от чужих стратегий, от уровня случайных факторов, однако это очень простой и в то же время сильный и универсальный алгоритм поведения в такой игре.

Литература:
Филип Болл. Критическая масса
Robert Axelrod. The evolution of cooperation (англ.)

Ссылки:
www.sci.brooklyn.cuny.edu/~sklar/teaching/f05/alife/notes/azhar-ipd-Oct19th.pdf (англ.)
www.ncbi.nlm.nih.gov/pmc/articles/PMC2460568 (англ.)
www.prisoners-dilemma.com (англ.)
Поделиться публикацией

Похожие публикации

Комментарии 17
    +1
    С одной стороны, конечно, интересно, но с другой, достаточно открыть вики с соответствующей статьей и получить то же самое (ну может не так подробно в части моделирования…). Интереснее было бы услышать хотя бы про парадокс Симпсона, если на то пошло — там-то как раз вещь с заковыкой, про которую сообразить еще надо.
      –2
      Мне кажется, вы в правилах согласие с отказом путаете.
      То есть, «дать показания на подельника» это же как раз «сотрудничать со следствием», а не наоборот.
      Ну и когда один сотрудничает со следствием, а другой нет, плюшки получает тот, кто сотрудничает. У вас же положительные баллы и игроки стремятся к их максимизации, верно? Просто чаще всего говорят о годах заключения и тогда игроки стремятся к их минимизации.
        +2
        Здесь они сотрудничают друг с другом (кооперируются?). Или не сотрудничают.
          +1
          Да, здесь сотрудничают друг с другом. По первой ссылке в pdf файле такая формулировка была:
          Thus there are two choices—
          – to cooperate, (in this scenario remain silent),
          – or to defect, which here means to confess.

          т.е. сотрудничать (друг с другом), аналог молчания заключенных
          или кинуть(?), аналог дать показания на подельника
        +3
        рекомендую тому, кого заинтересовала эта тема, а также ее биологическое применение, прочитать «Эгоистичный ген» Ричарда Докинза (второе издание книги).
          0
          И его же «расширенный фенотип».
          0
          Могли б сослаться не только на Раппопорта, но и на саму Дилемму заключённого… Там отчасти, про повторяющиеся случаи тоже расписано
            0
            Дилема заключенного активно применяется как тренинг «Красное и черное» в разного рода психокультах производных от Lifespring.
              0
              Все круто, но ради бога, объясните мне, какое это имеет отношение к реальной жизни? Знание теории игр помогает в повседневной жизни легче добиваться желаемого?
                +1
                  –1
                  Для людей, готовящихся отбыть в места заключения такое знание просто бесценно
                    0
                    Как я понял, в данном случае не рассматриваются отношения между заключенными. Вот кинешь ты один раз, а тебя потом заточкой :)
                      0
                      В данном случае заточкой должны вы воспользоваться, так как первый тезис:
                      Начинай с доверия, и отвечай добром на добро

                      А уже если Вас «кинули», то ответный ход (перо в бок) — как раз за вами ))
                        0
                        Да, но:
                        Реагируй на обман немедленно и адекватно

                        Т.е. если меня кинули, то я потом могу кинуть. И после этого получу «перо в бок» :))
                          0
                          В данной ситуации, «адекватно» это и есть «перо в бок»
                            0
                            Кто бы не ткнул перо, игра на этом и закончится. А вся идея в повторениях ситуаций.
                    +1
                    статистическое доказательство, что надо быть приличным человеком, хотя бы исходя из вероятности получить профит :-)

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое