Наши действия влияют на действия других. А теперь самое интересное — их реакция должна определять наш первый шаг. Как такое возможно? Проблема в том, что чем рациональнее человек рассуждает, тем чаще попадает в ловушки. Можно ли так менять правила игры, чтобы выигрывать еще до начала партии?

Что ж, попробуем в этом разобраться.

Меня зовут Костя Дубровин. Я веду канал про книги.

О чем книга

Если коротко, теория игр анализирует стратегии, в которых результат зависит не только от ваших решений, но и от решений других участников. Авторы книги — Авинаш Диксит (Принстон) и Барри Нейлбафф (Йель) — используют кейсы из бизнеса и политики, ссылаются на исследования и работы известных математиков. Читается легко. Однако, кто хорошо знаком с теорией игр — заскучают. А для остальных жизнь разделится на «до» и «после».

Теория игр

Базовый инструмент теории игр — равновесие Нэша (того самого, о котором сняли фильм «Игры разума»). Еще в студенчестве он описал ситуацию, где ни один игрок не может улучшить свой результат односторонним изменением стратегии. Позже он получил за это Нобелевскую премию. В бизнесе равновесие Нэша объясняет стабильность цен на некоторых рынках. Если две авиакомпании установили одинаковую стоимость билетов Москва-Питер, и обе понимают, что снижение цены вызовет симметричный ответ с убытками для всех, они находятся в равновесии.

Проблема в том, что равновесие часто субоптимально. Авторы разбирают классическую дилемму заключенного на примере двух гипотетических компаний — Rainbows End и B.B. Lean. Эти компании нам еще понадобятся, так что назовем их по-русски, чтобы лучше запомнить. Rainbows End — переведем как... хм... Ну пусть будет просто «Радуга». А вторую назовем «Лин». Обе продают джинсы. Если они удерживают цены на уровне 80 долларов, каждая зарабатывает по 70 тысяч. Но если первая снизит цену до 40 долларов, а другая останется на 80, «Радуга» получит 110 тысяч прибыли, а «Лин» — только 38 тысяч. Рациональный страх быть обманутым толкает обе компании снизить цены. В результате обе продают по 40 долларов и зарабатывают по 40 тысяч.

Исследование ценовых войн в американской авиаиндустрии 1980-1990-х подтверждает эту логику. American Airlines и United Airlines многократно входили в циклы взаимного демпинга, теряя миллиарды долларов. Равновесие устанавливалось на убыточном уровне цен, потому что каждая компания опасалась, что конкурент воспользуется односторонним повышением.

Первый ход

В играх, вроде камень-ножницы-бумага, участники принимают решения одновременно. Для последовательных игр, где участники ходят по очереди, авторы вводят метод обратной индукции, когда анализ идет с конца игры в начало. Это называется «смотри вперед, рассуждай в обратном направлении».

Вернемся к «Радуге» и «Лину». Компания «Лин» решает первой установить цену и выбирает между 80 и 40. «Радуга» наблюдает за выбором и отвечает. Используя обратную индукцию, «Радуга» рассчитывает, что если «Лин» поставит 80, ей выгоднее ответить 40 и заработать 110 тысяч. Если «Лин» поставит 40, «Радуга» тоже выберет 40 (оба заработают по 40 тысяч). Предвидя это, «Лин» выбирает 40 сразу, чтобы избежать наихудшего сценария (38 тысяч при своей цене 80 и ответе конкурента 40).

Но кое-что можно предусмотреть заранее. В 1976 году Polaroid подала иск против Kodak за нарушение патентов на технологию мгновенной фотографии. Судебный процесс длился 14 лет. В 1990 году суд обязал Kodak выплатить Polaroid 909,4 миллиона долларов. Polaroid инвестировала в патентную защиту и судебные издержки заранее. Видимо, Kodak не учел это обстоятельство и понес убытки.

Еще один пример — борьба за рынок спутникового телевидения в Великобритании в конце 1980-х. BSB и Sky TV вышли на рынок одновременно. BSB инвестировала в технологию высокого разрешения, требующую специальных антенн. Sky TV использовала более дешевые стандартные решения и захватила долю первой. BSB проиграла, хотя ее технология была лучше. Порядок входа на рынок оказался критичнее качества продукта.

Коммитмент

Угроза (коммитмент) работает, только если оппонент верит в ее исполнение. Авторы называют это кредитностью. Некредитные коммитменты игнорируются. Классический пример кредитного коммитмента — действия Эрнана Кортеса в 1519 году. Высадившись в Мексике с армией в 600 человек, он приказал сжечь корабли. Теперь у солдат не было пути к отступлению, оставалось только победить.

Компания General Electric в 1950-х контролировала 58-60% рынка турбогенераторов в США. Westinghouse занимала 30%, Allied-Chalmers — 10%. GE взяли на себя роль стабилизатора рынка. В определенные числа каждого месяца они уступали заказы конкурентам. В остальное время забирали себе, сохраняя необходимую долю, а главное уровень цен. Конкуренты понимали, что с GE бесполезно демпинговать, и выбирали стабильные 30% и 10% вместо ценовой войны. Кредитность обеспечивалась размером GE и болезненными уроками демпинга в прошлом.

Т��мас Шеллинг, лауреат Нобелевской премии 2005 года, анализировал коммитмент в контексте ядерного сдерживания. В своей книге «Стратегия конфликта» (1960) он показал, что угроза массированного возмездия кредитна, только если оппонент не может ее предотвратить первым ударом. Поэтому «Мертвая рука» (автоматический ядерный ответ на случай уничтожения наших командных пунктов) нужна не только нам.

Предсказуемость

Если оппонент знает вашу стратегию, он может ею воспользоваться, поэтому нужно рандомизировать решения. Авторы объясняют смешанные стратегии через спортивные примеры.

В одном из исследований проанализировали 1400 пенальти. Оптимальная стратегия нападающего — чаще бить влево (в 58% случаев) и реже вправо (в 42%). Равновесие находится в точке, где нападающий безразличен между левым и правым ударом и исходит из того, что оба дают одинаковую вероятность гола, а вратарь безразличен между прыжком влево и вправо.

В бизнесе используют выборочную проверку. Поскольку налоговая не может проверить всех, они это делают выборочно, но держат в секрете принципы отбора. Так же поисковики утверждают, что надо думать о пользе для посетителей сайта и он будет на первой странице. При этом, реальные алгоритмы ранжирования держат в секрете.

Похожая ситуация с промоакциями в ритейле. Исследование 1990 года показало, что супермаркеты используют случайные скидки, чтобы конкуренты не могли точно предсказать цены и скопировать их. Если скидки предсказуемы, то конкуренты подстраиваются.

Асимметрия

Асимметричное распространение информации может менять целые рынки. Джордж Акерлоф получил Нобелевскую премию 2001 года за анализ «рынка лимонов». Если покупатель не может отличить хороший подержанный автомобиль от плохого, он предложит среднюю цену. Хорошие машины нет смысла продавать, остаются средние и плохие. Похожая ситуация в консалтинге и заказной разработке. Когда заказчик не в состоянии оценить экспертность, он выбирает по стоимости часа. Выигрывают наименее компетентные игроки.

Майкл Спенс, тоже нобелевский лауреат 2001 года, показал, как сигналы решают эту проблему. Например, диплом университета сигнализирует работодателю не столько о знаниях, сколько о способности завершить сложную задачу. Даже если специальность неприменима, диплом разделяет способных от неспособных. Вот только я не понял как обстоят дела с образованием у тех работодателей, которым легче отличить кандидата с дипломом от кандидата без диплома, чем способного от неспособного.

Хороший пример с гарантией на товары. Производитель плохого телевизора не предложит 5-летнюю гарантию, потому что многочисленные обращения обойдутся дороже. Поэтому грамотные хозяйки используют длительность гарантии как сигнал качества. А грамотные производители дают большую гарантию, но не на все. Еще есть грамотные продавцы электроники, которые предлагают дополнительную гарантию на те позиции, по которым нет обращений.

Бывают ситуацию, когда лучше, чтобы сигналы отсутствовали. Например, чрезмерное стремление доказать свою компетентность воспринимается как доказательство обратного. Исследование 2002 года показало, что выпускники лучших университетов реже указывают название вуза в резюме. Для России это странно, но может у них все по-другому. Напишите в комментариях кто в курсе дела.

Аукционы

Уильям Викри получил Нобелевскую премию 1996 года за теорию аукционов. Он предложил модель аукциона второй цены (или аукциона Викри), в котором победитель платит сумму, равную второй по величине ставке. В этом случае наилучшей стратегией для всех участников является ставка с истинной оценкой стоимости. Проблема в том, что, если вы выиграли аукцион, то скорее всего переоценили актив. Все остальные посчитали, что он стоит меньше.

В 2000 году в Великобритании провели аукцион радиочастот для мобильной связи 3G. Правительство выручило 22,5 миллиарда фунтов, проведя восходящий аукцион. Участники видели ставки конкурентов и корректировали свои. В Германии аукцион прошел позже. Немецкие операторы, наученные горьким опытом британских коллег, торговались аккуратнее и потратили денег намного меньше.

eBay использует аукционы второй цены в скрытой форме. Система автоматически повышает вашу ставку на минимальный шаг выше конкурента, пока не достигнет вашего максимума. Это снижает стимул блефовать. Однако существует практика «снайперских ставок», когда участники ждут последних секунд, чтобы противники не успели отреагировать.

Переговоры

Авторы разбирают модель Рубинштейна, когда два игрока делят пирог, предлагая доли поочередно. По правилам каждый раунд пирог уменьшается, чтобы задействовать фактор времени. Равновесие рассчитывается обратной индукцией. Если дисконт составляет 10% за раунд, первый игрок предложит 60% себе, 40% второму. Второй примет, потому что отказ даст ему право первого хода в следующем раунде, но пирог уменьшится, и он получит только 54% от меньшей суммы.

Лучшая альтернатива договоренности — BATNA (Best Alternative To Negotiated Agreement). Если BATNA сильна, вы требуете больше. Авторы приводят пример переговоров UPS с пилотами. В 2002 году пилоты угрожали забастовкой перед Рождеством — пиковым сезоном доставки. UPS предложила «виртуальную забастовку», когда пилоты работают, но разница между их требованиями и предложением компании депонируется на счет третьей стороны. Арбитр решает спор позже, и деньги идут выигравшей стороне. Это сохранило клиентов и нивелировало давление, связанное с высоким сезоном.

Но не все так рационально. В игре «Ультиматум» один игрок предлагает способ разделить 100 долларов, второй принимает или отклоняет. В случае отказа оба получают ноль. Рационально принять любое предложение, даже 1 доллар. Эксперименты показывают, что предложения ниже 30% отклоняются в половине случаев. Люди наказывают за несправедливость, даже ценой собственных потерь.

Голосование

Маркиз де Кондорсе в XVIII веке продемонстрировал как коллективные предпочтения могут быть нетранзитивными, даже если индивидуальные транзитивны. Три избирателя выбирают из трех кандидатов A, B, C. Первый предпочитает A > B > C, второй B > C > A, третий C > A > B. Большинство предпочитает A над B (два голоса против одного), B над C (два против одного), но также C над A (два против одного). Цикл делает выбор невозможным.

Кеннет Эрроу получил Нобелевскую премию 1972 года за доказательство теоремы невозможности: нет системы голосования, удовлетворяющей базовым критериям справедливости одновременно. Авторы проанализировали выборы президента США 1992 года. Росс Перо получил 19% голосов, не выиграв ни одного штата. Его кандидатура забрала голоса у Джорджа Буша, помогая Биллу Клинтону. Если бы Перо не участвовал, вероятно, победил бы Буш. Присутствие третьего кандидата изменило исход, хотя он не имел шансов победить.

Есть другой вариант голосования, когда избиратель выбирает всех приемлемых кандидатов. Исследования показывают, что в этом случае чаще выбирают кандидатов с широкой поддержкой, вместо поляризующих фигур.

Стимулы

Стимулы используют для синхронизации интересов. Например, владелец компании хочет максимизировать прибыль, а сотрудник — минимизировать усилия. Но иногда что-то идет не так. Авторы описывают эксперимент в детском саду в Израиле. Родители забирали детей с опозданием. Сад ввел штраф за опоздание. Опоздания выросли. Штраф трансформировал моральное обязательство в финансовую транзакцию. Родители воспринимали его как плату за услугу, а не наказание. После отмены штрафа опоздания к прежнему уровню не вернулись.

Или вот показательное исследование бейсболистов Высшей лиги. Оно продемонстрировало связь между контрактами и травмами. Игроки с многолетними контрактами попадали в список травмированных на 14% чаще, чем игроки в последний год контракта, которым нужно было доказать свою ценность новым работодателям.

Авторы описывают проблему ключевых показателей. Если стимул привязан к одной метрике, сотрудник игнорирует другие. Учителей стимулируют по результатам тестов — они учат тестам, а не предмету. Решение — использовать комбинации метрик или фиксированные зарплаты для задач, где измерить результат сложно.

Кооперация

Если люди знают, что больше не встретятся, то дилемма заключенного ведет к предательству. А если встречи бесконечны (или вероятность следующей встречи высока), кооперация становится общей стратегией и приводит к равновесию.

Роберт Аксельрод проводил турниры компьютерных стратегий для повторяющейся дилеммы заключенного. Победила стратегия «око за око» (tit-for-tat), предложенная Анатолем Рапопортом:
• Сотрудничай в первом раунде
• Затем копируй действие оппонента в предыдущем раунде
• Если он сотрудничает, продолжай
• Если предает, накажи один раз, но вернись к сотрудничеству, если он исправится

Причины успешности этой стратегии:
• Игрок не нападает первым
• Наказывает предательство
• Возвращается к кооперации
• Оппонент быстро понимает логику

Элинор Остром получила Нобелевскую премию 2009 года за исследование управления общими ресурсами. Если пастбище в общей собственности то есть риск перевыпаса. Каждый пастух получает выгоду от дополнительной коровы, но издержки делятся на всех. Остром показала, что локальные сообщества создают ограничения на использование, мониторинг, санкции за нарушения. Ключевое условие — повторяющееся взаимодействие и репутация участников.

В бизнесе репутация работает как обязательство. Компания Amazon в 1990-х продавала товары с убытками, инвестируя в логистику. Краткосрочно это иррационально. Но инвесторы верили, что Amazon строит репутацию надежности и масштаб, которые окупятся позже. Их ожидания оправдались.

Итого

Каждая игра и каждый соперник уникальны, но есть общий способ мышления, который позволяет выигрывать чаще:
• Строить дерево игры
• Определять равновесие
• Проверять кредитность угроз
• Просчитывать выгоды оппонента от каждого хода

Стратегия строится от понимания того, как оппонент отреагирует на ваш ход, потом как вы отреагируете на его реакцию, и так до конца игры. Парадокс в том, что лучшие стратегии часто требуют ограничить собственную свободу выбора — сжечь корабли, как Кортес, связать себя публичными обязательствами, как Кеннеди, или инвестировать в репутацию, как Amazon.