Метод оценки вероятности футбольных результатов для стратегии ставок с потенциалом достижения положительной доходности
Предисловие
В этой статье мы рассмотрим параметрическую модель, которая была адаптирована к данным английской лиги и кубка Англии по футболу за период с 1992 по 1995 год. Эта модель основана на стремлении использовать потенциальную неэффективность рынка ставок на футбол, и она была проанализирована с использованием коэффициентов букмекерских контор за период с 1995 по 1996 год. Методика основана на модели пуассоновской регрессии, но усложнена структурой данных и динамическим характером выступлений команд. Показано, что оценки максимального правдоподобия могут быть получены с помощью вычислений, и, что модель дает положительную отдачу при использовании в качестве основы стратегии ставок.
1. Введение
Ставки на исход футбольных матчей в Великобритании имеют давнюю традицию, наиболее популярную в виде футбольных пулов, которые обычно включают выбор матчей, которые, как считается, с наибольшей вероятностью завершатся вничью. Букмекерские конторы предлагают коэффициенты на различные исходы матча. В простейшем варианте используется только результат матча, в том смысле, что это победа команды, играющей дома, или команды, играющей на выезде, или ничья. Более сложные ставки также могут быть сделаны на счет или на результаты таймов. Таким образом, при совершении ставок задача состоит в том, чтобы найти "хорошие ставки"(переоценённые), в которых рассматриваемая вероятность выигрыша выше соответствующей вероятности, определяемой коэффициентами букмекерских контор, так чтобы ожидаемый доход был положительным. Наша задача детально сравнить коэффициенты букмекеров с расчетными вероятностями, чтобы можно было использовать любые предполагаемые недостатки в спецификации букмекеров. Следовательно, статистическая модель, способная точно предсказывать вероятности исхода футбольных матчей, потенциально может стать основой прибыльной стратегии ставок. В данной статье разрабатывается модель, отвечающая этому требованию. Различные предложения по моделированию результатов футбольных матчей; рассмотрены в разделе 2. Однако для стратегии ставок, вероятности должны оцениваться в зависимости от конкретной команды, чтобы можно было рассчитать вероятности различных исходов матча между двумя конкретными командами на определенную дату. Такая степень разрешения выходит за рамки большинства опубликованных моделей. Исключением из этого правила является модель Махера (Maher, 1982), (рассмотренная здесь: Может ли распределение Пуассона описать статистику футбольных матчей), которая предполагает независимое распределение Пуассона для количества голов, забитых каждой из команд хозяев поля и команд гостей, с использованием значений, специфичных для прошлых результатов каждой команды. Это лежит в основе нашего подхода к моделированию. Однако, пытаясь разработать модель, которая была бы не просто разумным описанием данных, но и потенциально позволяла бы получать более точные оценки вероятностей, чем субъективные оценки, предлагаемые букмекерскими конторами, нам пришлось изменить и усовершенствовать эту базовую структуру модели. Эти изменения учитывают колебания результатов отдельных команд, а также позволяют оценивать результаты матчей в кубковых соревнованиях, в которых команды из разных лиг играют друг с другом. Одним из следствий этих изменений является то, что простые уравнения для оценки максимального правдоподобия больше недоступны, но, несмотря на высокую размерность модели, мы показываем, что оценки максимального правдоподобия все еще доступны численно. На основе разработанной модели рассчитываются вероятности исходов каждого матча и сравниваются с коэффициентами букмекерских контор; это лежит в основе спецификации стратегии ставок, которая, как мы показываем, дает положительную отдачу, используя исторические данные. Доступные нам данные описаны в разделе 3. В разделе 4 разрабатывается статистическая модель, основанная на базовой структуре модели Maher’а (1982). Применение модели к полученным нами данным описано вместе с некоторыми примерами результатов в разделе 4. Полезность модели в качестве основы для стратегии ставок описана в разделе 5. И, наконец, в разделе 6 предлагаются изменения, которые, по нашему мнению, приведут к дальнейшим улучшениям.
2. Контекст
Удивительно, но в небольшом количестве работ рассматривалось использование статистических методов для моделирования футбольных данных. Футболу в Американской национальной футбольной лиге (НФЛ) уделяется гораздо больше внимания, но различия между этими двумя видами спорта означают, что методы моделирования для футбола НФЛ естественным образом не распространяются на европейский футбол.
Первые упоминания о статистическом моделировании футбольных данных сосредоточены главным образом на распределении количества голов, забитых в игре. Moroney, (аж 1956) кратко рассмотрел эту проблему и предположил, что, хотя распределение Пуассона обеспечивает адекватную оценку, можно добиться улучшений, работая с отрицательным биномиальным распределением. Reep (1971) аналогичным образом исследовали влияние отрицательного биномиального распределения на результаты футбольных матчей и других игр с забитыми голами. Они пришли к выводу, что "в игре преобладает случай", и не нашли способа предсказать результаты в рамках своего класса моделей, учитывая присущий наблюдаемым данным шум. Напротив, Hill (1974) применил простой сравнительный тест для определения мест в финальной лиге с прогнозами экспертов и продемонстрировал значительную корреляцию. Более сложный анализ такого рода был проведен Fahrmeir, (1994), который применил недавно разработанные методы для зависящих от времени упорядоченных парных сравнений к данным по немецкому футболу.
Эти моменты иллюстрируют очевидную дихотомию: в долгосрочной перспективе несложно достаточно точно предсказать, какие команды, скорее всего, добьются успеха, но разработка моделей с достаточно высоким разрешением, позволяющих использовать эту возможность для прогнозирования отдельных матчей, значительно сложнее. Насколько нам известно, единственной работой, в которой выводится модель футбольных результатов в матче между конкретными командами, учитывающая различное качество участвующих команд, является работа Махера (1982). Он получил оценки максимального правдоподобия для модели, в которой результаты команд хозяев и гостей в любой игре являются независимыми распределениями Пуассона, а средние значения моделируются как функции предыдущих результатов соответствующих команд. Этот подход лежит в основе нашей модели в разделе 4.
Имея в виду несколько иные приложения, в нескольких работах рассматривалось влияние конкретных обстоятельств на выступления команд: Barnett and Hilditch, (1993) применили стандартные непараметрические тесты, чтобы выяснить, давали ли искусственные газоны, впоследствии запрещенные в английской лиге, значительное преимущество команде. команда хозяев поля; Ridder (1994) исследовали влияние удаления игрока на исход футбольного матча. В других работах использовались статистические модели для описания самих аспектов отдельных матчей: Chedzoy (1995) неофициально исследовал время забивания голов; Reep and Benjamin (1968) смоделировали количество и тип пасующих ходов в игре; Clarke and Norman (1995) исследовали преимущество игры дома.
Что касается стратегий ставок, то в экономической литературе есть множество статей, посвященных эффективности и использованию рынков ставок. Многие статьи посвящены ставкам на скачки и в NFL, а в некоторых также рассматриваются ставки на футбольные матчи, хотя статистическая методология в них практически не используется.
3. Данные
По каждому сыгранному футбольному матчу доступно огромное количество информации. Разумеется, записываются не только результаты, но и время забитых мячей, бомбардиры, положение команды в чемпионате на момент игры и так далее. На результативность отдельной команды в любой конкретной игре также могут повлиять многие внешние факторы: например, новые игроки, подписавшие контракт, или увольнение менеджера. Хотя эта информация также доступна, ее труднее формализовать, а ее качественная ценность субъективна. Наша модель использует только историю результатов матчей каждой команды, которую мы собрали за 3-летний период, хотя возможность включения других форм данных рассматривается в разделе 6.
Наши данные, включают в себя результаты 6629 матчей чемпионата и кубка за сезоны 1992-93, 1993-94 и 1994-95. Также доступны данные за 1995-96 годы, но они используются в качестве проверочной выборки для последующей проверки полезности модели при ее использовании в качестве основы для стратегии ставок. Данные за период с 1992 по 1995 год дают точные эмпирические оценки различных агрегированных характеристик. В таблице 1 представлена относительная частота результатов матчей, выраженная в процентах, от 0-0 до 4-4. В круглых скобках указаны стандартные ошибки, рассчитанные на основе базовой мультиномиальной модели. В результате обобщения, соотношение частот побед хозяев, ничьих и выездных матчей составляет 46:27:27. Таким образом, эмпирическая оценка вероятности того, что случайно выбранный матч приведет, например, к победе хозяев, составляет 0,46. Благодаря размеру базы данных эти эмпирические оценки позволяют получить точные оценки вероятности случайных совпадений.
В последующих разделах наша цель - получить оценки для матчей, которые выбираются не случайным образом, а с учетом специфики команды. На данном этапе можно проверить предположение о том, что предельное распределение результатов случайных матчей является пуассоновским. Сопоставление распределения Пуассона с суммированными результатами домашних и выездных матчей, приведенными в таблице 1, показывает, что по любому критерию, модель Пуассона практически идеально соответствует данным об итоговых результатах.
Это дает некоторую уверенность в том, что модель регрессии Пуассона, разработанная в разделе 4, по крайней мере, соответствует нашим данным, несмотря на опасения, высказанные другими исследователями по поводу общей адекватности предположения Пуассона. Еще одно предположение базовой модели, приведенной в разделе 4, заключается в том, что результаты домашних и выездных матчей не зависят друг от друга. Чтобы оценить обоснованность этого предположения, в таблице 2 приведены
для каждого счета хозяев и гостей
Основываясь только на оценках и ошибках, оценка 0-3, по-видимому, значительно занижена моделью независимости. Однако, рассматривая это в контексте всех остальных результатов, мы считаем, что это произошло из-за ошибки выборки. Модификация предположения о независимости в свете этих наблюдений рассматривается в разделе 4.
4. Модель и результаты
4.1. Описание модели
С целью разработки прибыльной стратегии ставок в статистической модели футбольных матчей требуются различные функции. Например:
(а) модель должна учитывать различные возможности обеих команд в матче;
(б) следует учитывать тот факт, что команды, играющие дома, как правило, имеют некоторое преимущество - так называемый "домашний эффект";
(в) наиболее разумная мера оценка способностей команды, скорее всего, будет основываться на краткой оценке ее результатов за последнее время;
(d) природа футбола такова, что возможности команды, вероятно, лучше всего характеризуются отдельными показателями ее способности атаковать (забивать голы) и ее способности защищаться (не пропускать голы);
(e) при подведении итогов выступления команды по последним результатам следует учитывать принимайте во внимание способности команд, с которыми они играли.
Нецелесообразно получать эмпирические оценки вероятностей исходов матчей, учитывающие все эти ограничения. Вместо этого мы используем статистическую модель, которая структурно включает в себя каждую из этих характеристик. В основе нашей работы лежит модель, предложенная Maher'ом (1982), с изменениями, позволяющими одновременно включать неполные наборы данных и данные из разных подразделений, а также учитывать колебания в силе команды.
Основное допущение модели Maher'а состоит в том, что количество голов, забитых хозяевами поля и гостями в любой конкретной игре, являются независимыми пуассоновскими переменными, средние значения которых определяются соответствующими качествами каждой из сторон в атаке и обороне. Более конкретно, в матче между командами с индексами
где
где
и
В этой модели,
вводится как параметр зависимости:
4.2. Результаты модели
Из модели (4.2) следует, что для n команд необходимо оценить параметры атаки
Для системы английских лиг, которая включает в себя Премьер-лигу и дивизионы 1-3 Футбольной лиги,
Базой нашего инференса является функция правдоподобия. При совпадениях, индексированных
где
В уравнении (4.3) в вероятность включены команды из всех четырех дивизионов. Это имеет два следствия: во-первых, параметры для каждой команды должны отражать относительное качество различных дивизионов, и, во-вторых, эти параметры можно оценить только при наличии информации о матчах между командами разных дивизионов. К счастью, поскольку в начале нового сезона существует некоторая мобильность между командами разных дивизионов из-за повышения в классе и вылета из него, проблема идентификации параметров решена. Ситуацию также улучшает включение результатов кубковых матчей, в которых команды из разных дивизионов играют друг с другом. Затем, поскольку параметры откалиброваны для всех дивизионов, модель можно корректно использовать для оценки вероятностей исходов матчей с участием команд разных дивизионов, как, например, в кубковых играх. Эти моменты проиллюстрированы таблицей 3, в которой приведены средние показатели атаки и защиты команд в каждом дивизионе.
Как и ожидалось, средний рейтинг атаки и защиты команд повышается с повышением статуса лиги, что определяется увеличением и уменьшением средних значений и соответственно.
4.3 Улучшения модели
Структурным ограничением модели (4.3) является то, что параметры являются статичными, т.е. предполагается, что команды имеют постоянный уровень performance, определяемый параметрами
где
Максимизация уравнения (4.5) в момент времени t приводит к оценкам параметров, которые основаны на играх только до момента времени
4.4 Выбор глубины истории.
Существуют различные возможные варианты весовой функции в уравнении (4.5). Одним из возможных вариантов может быть:
в этом случае в момент времени
в которой все предыдущие результаты, взвешенные в геометрической прогрессии в соответствии с параметром
где
где, например,
Функция максимизируется при
4.5 Оценка параметров и результатов.
4.5. Parameter Estimates and Results
Полный набор оценок параметров, полученных путем максимизации уравнения (4.5) при
Кроме того, на рис. 2 показана соответствующая последовательность оценок
Кроме того, в таблице 6 приведены выборка матчей и оценки максимального правдоподобия их исходов. Стандартные ошибки оценок исхода, особенно оценки вероятности ничьей, невелики по сравнению со стандартными ошибками оценок параметров атаки и защиты.
5. Стратегия ставок
Насколько полезна модель, описанная в разделе 4, при использовании ее в качестве основы для стратегии ставок с учетом коэффициентов, предоставляемых букмекерскими конторами? Подробное исследование стратегий ставок на футбол с фиксированными коэффициентами приведено в работах Pope and Peel(1989) и Dixon and Pope (1996). Здесь мы рассматриваем этот вопрос со ссылкой на новый набор результатов, соответствующий сезону 1995-96, для которого у нас есть как результаты, так и коэффициенты букмекеров. Сначала мы используем модель (4.5) с значением
Примечание @cappelchi: Это так называемая базовая нормализация, я чаще использую Модель Shin'a для получения вероятностей из коэффициентов. О модели Shin’a и её преимуществах читайте в моей предыдущей статье: “Точность спортивных прогнозов на основе коэффициентов ставок.”.
Приведенный выше набор коэффициентов соответствует набору вероятностей (0.62, 0.29, 0.20), сумма которых равна 1.11. Это явление является стандартным на рынках ставок: если букмекеры точны в своих расчетах вероятности, у них есть встроенный коэффициент выигрыша (комиссия), соответствующий их ожидаемому выигрышу, который в приведенном выше примере равен 11%. Чтобы выиграть деньги у букмекеров, в смысле получения положительной ожидаемой прибыли, требуется определение вероятностей, которое является достаточно более точным, чем те, которые получены на основе коэффициентов, чтобы превзойти ожидания букмекеров. Сначала мы мультипликативно изменяем коэффициенты букмекерских контор таким образом, чтобы они в сумме равнялись 1. Обозначим эти вероятности для матча
Если модельные вероятности были безошибочными, то ожидаемый выигрыш от ставки на единицу ставки на победу хозяев, например, равен
Если
Из уравнения (5.1) следует, что естественной стратегией ставок для любой конкретной игры
где
При определенном выборе
Успешность этой стратегии ставок можно оценить, рассчитав наблюдаемую доходность, если бы такая стратегия была принята, с учетом результатов матчей, которые действительно имели место. На рис. 4 это показано как функция от
В сюжете присутствует значительная вариативность, из-за чего трудно сделать окончательные выводы. Однако при r=1.2 наша стратегия ставок приводит к доходности, которая значительно отличается от -0.11, ожидаемой доходности при случайной стратегии ставок, обусловленной позицией букмекеров, и имеет положительную ожидаемую абсолютную доходность при любом r > 1,1. Именно в этом смысле мы заявляем, что модель и выводы, приведенные в разделе 4, соответствуют нашей заявленной цели - разработать модель для оценки результатов футбольных матчей, которая является основой стратегии ставок с положительной отдачей.
Примечание @cappelchi:Как правило модель заваливается в сторону высоких коэффициентов, так как высоковероятные события чаще всего недооцениваются букмекерами и заработать на них сложно. Плюс информационный инсайд лучше всего монетизируется на высоких коэффициентах.
6. Заключение
Наша цель состояла в том, чтобы разработать метод оценки вероятности футбольных результатов с потенциалом достижения положительной ожидаемой доходности при использовании в качестве основы стратегии ставок с учетом коэффициентов букмекерских контор. Наша базовая модель проста - это двумерное распределение Пуассона для количества голов, забитых каждой командой, с параметрами, связанными с прошлыми достижениями, но изменения, необходимые для повышения реалистичности и точности модели, делают соответствующие выводы тяжелой вычислительной нагрузкой. Тем не менее, расчеты легко выполнимы, а полученная в результате модель точна во многих отношениях.
Наша стратегия ставок также проста: мы делаем ставки на все исходы, для которых отношение модели к вероятностям букмекеров превышает определенный уровень. Мы показали, что для достаточно высоких уровней эта стратегия дает положительную ожидаемую доходность, даже с учетом встроенного смещения коэффициентов букмекерских контор.
Простота нашей модели и связанной с ней стратегии ставок привлекает. Однако, чтобы еще больше повысить эффективность нашего подхода, мы считаем, что могут потребоваться дальнейшие модификации. Одна из возможностей заключается в дальнейшем совершенствовании модели пуассоновской регрессии. Стохастически обновляемые параметры являются естественной идеей в этом контексте, но детальная реализация может оказаться сложной. Smith (1981) рассмотрел структуру динамической регрессии для простых пуассоновских моделей, но обобщение этих идей в масштабе модели (4.5) не является немедленным. Расширение области применения нашей модели для включения дополнительной информации о ковариатах является второй областью для разработки. Количественная ценность таких данных не всегда очевидна, поэтому для такого развития событий может потребоваться байесовская структура, позволяющая использовать их субъективную ценность. Третья возможность - это режим ставок. До сих пор мы уделяли внимание ставкам с фиксированными коэффициентами на исход матча. Это приводит к стратегии ставок, при которой на самом деле делается относительно немного ставок. Поскольку букмекерские конторы предлагают коэффициенты на результаты конкретных матчей, вероятности которых также рассчитываются с помощью нашей модели, можно разработать стратегию ставок, основанную на результатах матчей. Если говорить более радикально, то существует несколько вариантов ставок в "рыночном стиле" для футбольных матчей, где прибыль от забитых мячей покупается и продается как товары (например, Jackson (1994) и Dixon and Robinson (1996)); реализация нашей модели рыночных стратегий в таком варианте является еще одной возможностью.
Стремление к научному совершенствованию нашей модели и стратегии ставок с чисто случайным побочным результатом в виде выигрыша денег у букмекеров побуждает нас развивать очевидный успех существующей модели различными способами, рассмотренными выше.