Может ли распределение Пуассона описать статистику футбольных матчей
Здесь рассматривается статья M. J. MAHER'a «Modelling association football scores».
Данная статья имеет небольшое прикладное значение, но она является фундаментальной и на неё ссылаются многие современные авторы. Основной идеей является применение двумерной пуассоновской модели, которая учитывает корреляцию предикторов. Поскольку сами по себе коэффициенты ставок букмекеров, являются отражением вероятностей спортивных событий и соответственно хорошими фичами, важно уметь раскладывать их на составляющие статистики.
Абстракт
Некоторые публикации отвергают модель Пуассона для оценки результатов футбольных матчей в пользу отрицательного бинома.
Однако в данной статье модель Пуассона исследуется более подробно. Включены параметры, отражающие присущие командам сильные стороны в атаке и обороне, и из иерархии моделей выбрана наиболее подходящая модель. Сравниваются наблюдаемые и ожидаемые частоты забитых мячей, и тесты на соответствие показателям показывают, что, несмотря на небольшие систематические различия, независимая пуассоновская модель дает достаточно точное описание футбольных результатов. Улучшения могут быть достигнуты за счет использования двумерной пуассоновской модели с корреляцией между оценками, равной 0,2.
1. Введение
MORONEY, M. продемонстрировал, что количество голов, забитых командой в футбольном матче, не очень хорошо согласуется с распределением Пуассона, но если использовать «модифицированный Пуассон» (отрицательный биномиал), то соответствие будет намного лучше.
REEP, POLLARD и BENJAM подтвердили это, используя данные Первого дивизиона английской футбольной лиги за четыре сезона, а затем применили отрицательное биномиальное распределение к другим играм с мячом. Следствием этого результата является то, что одно и то же отрицательное биномиальное распределение применяется к количеству голов, забитых командой, независимо от силы этой команды или соперника. На самом деле в более ранней работе REEP и BENJAM отмечали, что «случайность действительно доминирует в игре». Но позже HILL в своей работе показал, что футбольные эксперты были способны еще до начала сезона с некоторым успехом предсказывать итоговые позиции в турнирной таблице. Таким образом, на протяжении всего сезона в игре доминирует мастерство, а не случайность. С этим, вероятно, согласилось бы большинство людей, которые смотрят футбольные матчи; в то время как в одном матче удача играет значительную роль (упущенные голевые моменты, сомнительные решения из‑за офсайда и удары в перекладину, очевидно, могут кардинально повлиять на результат), в других матчах удача играет гораздо меньшую роль. Команды не одинаковы; у каждой из них есть свои присущие ей качества, и, конечно же, мы должны ожидать, что когда хорошая команда играет со слабой командой, у хорошей команды будет высокая вероятность победы и высокая результативность. Используя данные за весь сезон или только за его часть, эти неотъемлемые качества команд лиги можно определить, например, с помощью оценки максимального правдоподобия или с помощью линейной модели.
2. Модель
Есть веские основания полагать, что количество голов, забитых командой в матче, скорее всего, является переменной Пуассона: владение мячом — важный аспект футбола, и каждый раз, когда команда завладевает мячом, у нее появляется возможность атаковать и забить. Вероятность того, что атака приведет к голу, конечно, невелика, но количество раз, когда команда владеет мячом во время матча, очень велико. Если p равно константе, а атаки независимы, количество голов будет биномиальным, и в этих обстоятельствах очень хорошо подойдет приближение Пуассона. Среднее значение этого Пуассона будет варьироваться в зависимости от качества команды, и поэтому, если рассмотреть распределение голов, набранных всеми командами, то получится распределение Пуассона с переменным средним значением и, следовательно, что‑то вроде отрицательного бинома. Поэтому в этой статье, по крайней мере на данный момент, будет принята независимая пуассоновская модель для оценки результатов. В частности, если команда
Таким же образом может быть наложено другое ограничение:
поэтому необходимо указать только 86 независимых параметров.
Поскольку предполагается, что
Следовательно,
и таким образом, оценки максимального правдоподобия
Одна из более простых схем, которая хорошо работает, заключается в том, чтобы использовать
Похожим образом находим
3. Результаты
Данные были получены в удобной матричной форме из футбольного ежегодника Ротманса (1973, 1974, 1975) (the Rothmans Football Yearbook). Для анализа были выбраны 12 отдельных лиг (четыре дивизиона английской футбольной лиги для каждого из трех сезонов). Оценка максимального правдоподобия для четырех типов параметров
Возникает вопрос о том, необходимы ли все эти параметры для адекватного описания результатов. Интуитивно кажется, что между командами должны быть реальные различия, но являются ли эти различия более очевидными в атаках или обороне, и действительно ли необходимо иметь отдельные параметры для качества атаки команды дома и на выезде? Рассмотрение таких вопросов приводит к возможной иерархии моделей, которые можно было бы протестировать. Внизу приведена модель 0, в которой
В модели 0 есть четыре параметра, но для того, чтобы получить уникальный набор оценок, накладываются ограничения
Model 1A:
Model 1B:
Model 2:
Model 3С:
Model 3D:
Model 4:
Таким образом, можно видеть, что продвижение на один уровень вверх в иерархии моделей приводит к введению (n — 1) дополнительных параметров. При нулевой гипотезе о том, что эти дополнительные параметры не нужны,
Для Премьер лиги в сезоне 1971–1972 изменения значения максимального логарифмического правдоподобия при переходе от одной модели к другой показаны в таблице 2 (
Эта таблица показывает, что когда вариативность
В (1971-1974гг) в дивизионах 1 и 2 участвуют 22 команды, а в дивизионах 3 и 4 — 24 команды. Таким образом, число степеней свободы в асимптотическом распределении
В целом, можно видеть, что параметры
Таким образом, в свете приведенных выше результатов была принята модель 2 как наиболее подходящая, и был проведен дальнейший анализ ее адекватности в качестве описания механизма, лежащего в основе футбольных результатов.
4. Тесты
Для модели 2 значения параметров являются следующими:
и
Из этого следует, что
и
что означает, что сумма средних значений пуассоновских распределений равна наблюдаемому количеству забитых мячей. Таким образом, оценка параметров приводит к одному линейному ограничению на ожидаемые частоты в каждом из двух тестов на соответствие
Случаи, когда модель была бы отклонена, отмечены звездочкой. Для результатов команд-хозяев поля таких случаев два, а для результатов команд-гостей — три. В целом, модель Пуассона можно считать приемлемой, хотя и с некоторыми небольшими сомнениями. Если сравнить наблюдаемые и ожидаемые частоты для каждого из двенадцати наборов данных, можно увидеть некоторые небольшие, но систематические различия. Общие наблюдаемые и ожидаемые пропорции составляют:
забито дома | |||||
0 | 1 | 2 | 3 | ||
наблюдаемые | 0.217 | 0.321 | 0.254 | 0.130 | 0.078 |
ожидаемые | 0.230 | 0.318 | 0.238 | 0.128 | 0.086 |
забито гостями | |||||
0 | 1 | 2 | 3 | ||
наблюдаемые | 0.388 | 0.371 | 0.177 | 0.051 | 0.014 |
ожидаемые | 0.406 | 0.352 | 0.166 | 0.056 | 0.020 |
Модель недооценивает количество случаев, когда был забит один или два гола, и переоценивает количество случаев, когда было забито 0 или
5. Модель двумерной пуассоновской регрессии
Модель двумерной пуассоновской регрессии - это статистический подход, используемый для анализа данных подсчета, который включает в себя два взаимосвязанных результата. Эта модель особенно полезна, когда результаты подсчета могут происходить одновременно и на них влияет один и тот же набор предикторов.
Конечно, нет недостатка в возможных объяснениях небольшого расхождения между независимой пуассоновской моделью и данными в предыдущем разделе; на самом деле, возможно, справедливее будет сказать, что удивительно, что такая простая модель так близко подходит к полному объяснению данных! Матч не состоит из двух независимых игр на противоположных концах поля; для заинтересованных команд важен результат, и поэтому, например, если команда проигрывает за десять минут до конца игры, она должна больше рисковать в обороне, чтобы попытаться забить. Таким образом, анализ распределения разницы в показателях команд,
Видно, что количество ничейных матчей (Z = 0) немного занижено. Это систематическая особенность, отмеченная во всех двенадцати наборах данных. Статистические данные о степени соответствия
Для независимой модели, только у одного из двенадцати статистический показатель
Теперь возьмём модель двумерной пуассоновской регрессии; в ней предельные распределения по-прежнему являются пуассоновскими со средними значениями
Результаты подгонки этой двумерной пуассоновской модели приведены в таблицах 6 и 7, где видно, что введение дополнительного параметра
6. Итог
Некоторые работы по распределению очков в футбольных матчах отвергали модель Пуассона в пользу отрицательного бинома. Однако в этих работах не были учтены различия в качествах команд в лиге. Первая рассмотренная здесь модель предполагает, что результаты команд хозяев и гостей в любом матче являются независимыми пуассоновскими переменными со средними значениями
Референсы
MORONEY, M. (1951), Factsfrom figures, London, Pelican.
REEP, C. and B. BENJAMIN (1968), Skill and chance in association football, J. R. Statist. SOC. A, 131, pp. 581-585.
HARVILLE, D. (1977), The use of linear-model methodology to rate high school or college football teams, J. Amer. Statist. Ass. 72, No. 3S8, pp. 278-289
HILL, I.D. (1974), Association football and statistical inference, Appl. Statist. 23, No. 2, pp. 203-208
REEP, C., R. POLLARD and B. BENJAMIN (1971), Skill and chance in ball games, J. R. Statist. SOC. A,134, pp. 623-629.
THOMPSON, M. (1975), On any given Sunday: fair competitor orderings with maximum likelihood methods, J. Amer. Statist. Ass. 70, No. 351, pp. 536-541.