Comments 33
"Статистический анализ помог найти и самый распространённый счёт — 1:1"
А 1:0 и 0:1 это не одно и то же в контексте данного исследования? В сумме это был бы лидер.
С одной стороны, да, это так
Но если мы говорим именно про счёт, а не количество забитых голов, то в первом случае выигрывает домашняя команда, а во втором — гостевая. Так что ситуации чутка разные
Если это разные ситуации то нужно сравнивать в этом разрезе и все предыдущие графики. 1-2-3-4 голы для хозяев и гостей, минуты первого тайма и второго. Если там разницы не будет, то тогда можно не учитывать и в последней выборке. А если есть, то интересно какая. А то получается как-то странно, что мы сначала это нигде не учитываем при расчётах, а потом резко это становится другой ситуацией :)
Хорошая идея, запишу для дополнительного анализа
Еще хорошо бы разделить по странам и по лигам, чтобы проверить наличие "низовых" или "верховых" лиг (стран)
Интересно, влияет ли наличие осадков во время тайма, и вообще есть ли прочие корреляции с другими внешними факторами.. Или данных нет, а значит и не будет универсального предсказателя?)
По опыту игры в футбол, при мокром газоне мяч перемещается быстрее, а вратарям сложнее фиксировать мяч и предугадывать траекторию удара. Так что влияние есть — но вопрос в том, насколько сильно
Есть, и они очень решающие, но редки и ситуативны, в общей статистике будут погрешностью. Сам по себе дождь не является фактором (кроме более скользкого мяча, но тут и нападающему и вратарю одинаково неудобно), но если дождь добил газон и к бутсам липнет по килограмму грязи - испанцы не смогут свою фирменную распасовку ювелирную гонять, например. И наоборот, игрокам АПЛ или РПЛ не привыкать по картофельному полю бегать))
1:0 это победа хозяев, а 0:1 победа гостей. У хозяев преимущество родного стадиона и больше поддержка болельщиков, что и подтверждает статистика.
Голы в дополнительное время первого тайма часто записывают на 45-ю минуту (я, например, вообще думал, что это общее правило и удивлен, что тут есть голы в первом тайме, но позже 45-й минуты). Поэтому на 45 такой скачок.
Хорошо бы еще посчитать для интереса:
Вероятность того, что первый гол забъют хозяева или гости;
Вероятность голов хозяев и гостей в каждую минуту матча;
Вероятность для каждой минуты первого, второго и т.д. гола, в т.ч. для хозяев и гостей;
Вероятность выигрыша команды, если она пропускает гол первой (2 гола первой) - отдельно для хозяев и гостей
Вероятность итогового счета, если в первом раунде счёт был ... (варианты)
Да, это то же интересно.
Кстати, все скрипты лежат так же на гитхабе:
https://github.com/LesnoyChelovek/footballstats/tree/main
При желании можно задать условия и для других рассчётов
А про добавленное время - вижу только сравнение в абсолютном количестве. А если сравнивать в относительном количестве, т.е. с учётом того, что компенсированное время на самом деле было?
Хотелось бы уточнить статистику "преимущества родного стадиона" - какова в процентах вероятность выиграть дома и в гостях. Кроме того, было бы интересно намутить нечто подобное для бокса и ММА - там тоже сырые данные в открытом доступе (Boxrec, Sherdog, Tapology), но не сконвертированы в табличные материалы для анализа.
Верхнеуровнево найти ответ на «преимущества родного стадиона» можно уже в самой статье, если посмотреть самые распространёные счета в матче. Счетов 1:0, 2:1 и 2:0 примерно в два раза больше, чем 0:1 и 1:2
Бокс и ММА я не очень представляю, как обсчитать. Учитывать только победы? Тогда надо использовать что-то типа рейтингв Эло, как в шахматах.
Не, там хотелось бы главным образом выпотрошить сырые данные. А дальше уже - много чего считать:
Какой самый распространённый тип победы (сдача, ТКО, решение судей)? Как часто происходят ничьи?
В каком раунде чаще происходит досрочная победа?
Зависимость длительности поединка от уровня лиги. Например, правда ли, что бои высшего уровня (UFC, Bellator, Invicta и т.д.) чаще длятся всё время, чем бои в менее ранговых лигах?
Какова статистика побед дебютантов. Что вероятнее - выиграть у другого дебютанта или у соперника с отрицательным опытом?
Зависимость статистики нокаутов от весовой категории
Разного рода аномалии статистики для разных стран
В общем, были бы данные, а уж что анализировать - найдётся.
Интересно было бы посмотреть на статистику по признаку "не летит сегодня" -- когда игровое преимущество (минуты владения, кол-во ударов и т.п.) есть, а счёт на табло это не подтверждает
P.S.: интересно, букмекеры пользуют какую-то подобную статистику при формировании коэф-тов?
P.S2: Перестал смотреть футбол в конце нулевых, когда началась эра симуляций и побед любой ценой. И до сих пор я абсолютно искренне не понимаю, почему никто даже не пытается никак пресечь симуляции?
Симуляции пытаются пресекать точечно, под конкретный турнир, выпуская для судей директиву. В массе своей для регулярных чемпионатов усилия по пресечению не настолько повлияют на результат на длинной дистанции, чтобы этим серьезно заниматься.
Интересно было бы посмотреть на статистику по признаку "не летит сегодня" -- когда игровое преимущество (минуты владения, кол-во ударов и т.п.) есть, а счёт на табло это не подтверждает
Тут, скорее всего, надо копать в сторону xG, который уже используется в футбольной аналитики. Но нужно придумать новые коэффициент, который будет отображать шанс гола — в общем, математическая задача, которую нужно решать не одному, а с кем-то
интересно, букмекеры пользуют какую-то подобную статистику при формировании коэф-тов?
Я думаю, что у букмекеров больше данных. Они точно учитывают красные и жёлтые карточки, положение команд в таблице, форму игроков и так далее. У меня такого нет — слишком было бы душно, но при этом более точно. Для меня это было просто fun-проект в свободное время от работы и пары часов перед сном
P.S2: Перестал смотреть футбол в конце нулевых, когда началась эра симуляций и побед любой ценой. И до сих пор я абсолютно искренне не понимаю, почему никто даже не пытается никак пресечь симуляции?
Поэтому и люблю любительский футбол, где этого нет (:
Имхо, в матчах сборных симуляции происходят не столь часто. А вот к VAR у меня отношение очень неоднозначное. С одной стороны, я конечно же за дополнительное видеонаблюдение и техническую помощь судейству. С другой стороны, в последнее время явно стало больше тормозов игры и незасчитанных голов из-за офсайдов, в т.ч. минимальных. Я не знаю, как это формализовать, но правило офсайда явно нуждается в пересмотре.
в т.ч. минимальных. Я не знаю, как это формализовать, но правило офсайда явно нуждается в пересмотре.
В каком? :) Минимальный оффсайд не считать? :) Не, ну серьезно. Ну какой тут пересмотр. Автоматизировать это надо максимально, чтобы минимизировать задержки по принятию решений. И все. Это чисто технический момент.
Не нужен пересмотр. Наоборот, футбол качественнее стал - нападающий хотя бы голову включает и вынужден смотреть боковым зрением где он находится. Поэтому в еврокубках сейчас и толкучка в штрафной постоянная и мяч вместе с вратарем в ворота залетает. Ну или игроки вынуждены осваивать закрутку мяча чтобы прямой гол с углового или штрафного очень неожиданно забивать. Все равно интереснее смотреть чем на лося который пол-поля пробежал, обвел двоих и вколотил.
Вспоминается матч англия -португалия, где португальцы как не в себя симулировали. Харгривза ещё во втором дополнительном тайме удалили
интересно, букмекеры пользуют какую-то подобную статистику при формировании коэф-тов?
Знакомый рассказывал, что для формирования коэффициентов до начала игры - да, берут общую статистику (плюс, конечно, в дополнение к тому, что автор спарсил, составы команд, игроков, их форму и еще кучу инсайда вплоть до "не помер ли кто-нибудь у игрока Х"). А вот во время игры уже такая инфа малопригодна и там начинают решать марковские цепи. И, вроде, ими считается даже бОльшая часть.
Если в теннисе, например, МО очевидно как прикрутить - чисто считать вероятность подачи (и потом от этого уже ветки вероятностей переходов строить), то в футболе таких прерываний нет и там букмекеры придумали нарезать матч на пятиминутки и считать вероятности переходов внутри от одной пятиминутки к другой.
При этом пик голеодорства придётся через 5–14 минут после первого мяча. Чисто психологически, это можно объяснить, что команды, пропустившая мяч, хочет быстрее отыграться, а значит побежит вперёд и усилит натиск. А вот соперник в этот момент может поймать на ошибке.
Кроме этого и другие сценарии тоже "сдвигаются" к вероятности забить. Например, атакующая команда нащупала слабину в обороне. И, соответственно, защищающаяся команда тоже резко теряет уверенность в своей игре, если не удалось удержать ворота на замке. Забитый гол (особенно первый) влияет очень сильно психологически на обе команды. Даже если обороняющаяся команда не начала бежать вперед, игроки могут начать делать больше ошибок. А нападающие ловят кураж.
В общем, любой первый мяч легко может вывести игру из "монотонного" состояния. А дальше сценарии уже разные бывают.
Доброго времени суток, интересная статья. Жаль, я 0 в программировании, хотя выложенные скрипты мотивируют их применение и редактирование освоить. Но как большой поклонник футбола и ставок выскажу свои соображения. Выборка по такому огромному количеству хороша с точки зрения математики, но размыливает картину более практическую. Было бы интереснее глянуть (самому придеться освоить, да) выборку начиная с определенного года (трактовка офсайда судьями в последние лет 15 жестче стала и матчи более сухие. Ну а сравнение современных матчей с играми 70ых вообще ужас, совсем другая игра уже). Еще ВАР вносит свои коррективы, поэтому и надо смотреть последние годы только. И смотреть только премьер лиги, национальные сборные, ЛЧ и прочие топовые кубки. Потому что во вторых и третьих лигах откровенные договорняки катаются часто или некомпетентные\коррумпированные судьи. Ну и отдельный привет юго-восточной азии с арабами - там и в топ лиге непотребства творятся, люди только-только в нормальный футбол учатся играть. В таком разрезе уже можно пренебречь своим и чужим полем - грандам обычно без разницы на чьем поле катать.
45 минута может длится пять минут
Сколько ни анализируй - на долгой дистанции зарабатывает только букмекер!
Проанализировал более 260 тысяч футбольных матчей, чтобы поспорить с учёными-статистиками