Как стать автором
Обновить

Комментарии 37

А в чем смысл брать матч команд из одного города, который пройдет через два месяца? Благо, команды хоть на разных стадионах играют и термины «хозяин» — «гость» более-менее уместны… Разумнее было бы на примере ближайших матчей показать, какие коэффициенты должны быть правильными, а потом сравнить, чьи лучше — пуассоновские или букмекерские.
Кто через два месяца вспомнит о том, какие ставки предлагались?
Если берем матч Интер-Милан, то термины «хозяин» — «гость» подразумевают как один стадион.)
с эпичным полуфиналом (наиболее поздней стадией турнира, где такое может иметь место) ЛЧ 2003: 0-0 первый матч, 1-1 второй матч на том же стадионе, но в финал идет «Милан», поскольку он забил в матче, где считался гостем.
https://en.wikipedia.org/wiki/2002%E2%80%9303_UEFA_Champions_League#Semi-finals

Хозяин-гость более чем уместны, ибо в Англии большое количество мест на стадионе занимают владельцы сезонных абонементов домашней команды. А насчет двух месяцев вы правы, ставки букмекеров могут достаточно сильно измениться в зависимости от формы команд на момент матча, наличия травмированных и тому подобного.

>>а потом сравнить, чьи лучше — пуассоновские или букмекерские.
Строго говоря, букмекерские коэффициенты не обязаны отражать реальную вероятность выигрыша той или иной команды. Задача букмекера получить профит при любом исходе матча. Поэтому коэффициенты отражают не силу команд, а ожидания тех, кто делает ставки.

Если выигрыш команды А в три раза вероятнее выигрыша команды Б, но люди склонны ставить на А и на Б примерно одинаковое количество денег, то букмекер поставит на матч равные коэффициенты 0.95/0.95. И получит свои 5 процентов при любом исходе. Конечно, такие большие перекосы бывают редко.
Поучаствуйте вашим ботом в конкурсах спортивных прогнозов на рутрекере. Там на футбол: английскую премьер-лигу и российскую премьер-лигу многие люди дают прогнозы. Там интересная система подсчета — насколько близко ваш прогноз был к факту. Очень сбалансированная и проверенная годами система.

Спасибо, интересно будет узнать какие еще факторы берутся в статистический анализ и с какими коэффициентами.

Спасибо за статью, интересно. Подскажите, откуда получились цифры 1.20789 и 1.49210 при расчёте относительного среднего?
За весь сезон 2015/2016 было 380 футбольных игр, в которых команды у себя дома забили 567 мяча (1.49 за игру), а в гостях — 459 (1.20 за игру).

Делим голы забитые дома 567 на количество встреч 380. Аналогично — голы в гостях 459 на 380. Расчет


(5:563)$ echo 'scale=5;567/380;459/380' | bc -q
Не самая лучшая идея оценивать команду в текущем сезоне, судя по прошлому. Во время летнего трансферного периода команда могла поменять половину состава, у неё мог смениться тренер и тактический рисунок игры. И эта команда уже не будет являться той, что была в прошлом сезоне.
Как мне кажется разумнее накапливать статистику первую половину сезона и, если у команды сохранился тренер, остались те же игроки и рисунок игры, то можно попробовать прогнозировать вторую половину.
Отличная статья, спасибо!

Есть несколько вопросов:

1. Есть ли статистика показывающая как вероятность прогнозируемых исходов коррелирует с реальными результатами матчей, на протяжении продолжительного периода времени (например одного чемпионата)?
2. Удалось ли по данному методу получить перевес над букмекером, например мы получили коэффициент 1.6 на победу MC, а букмекер нам дает к примеру 1.4, что на продолжительном временном участке приведет к потере поставленных денег. Есть ли статистика по матчам где букмекер дал более высокий коэффициент и корреляция этих данных с реальным исходом?

Собрать и находить статистику оказалось гораздо сложнее чем я думал. Множество сайтов блокируются Роскомнадзором, другие прячут весь контент только для платных пользователей. Даже такую простую вещь как статистика забитых за весь сезон мячей и разбивку дома / в гостях, надо было искать и искать. Так что скорее всего то, что Вы спрашиваете — это платный контент для тех, кто делает ставки онлайн.

Жаль, интересно было бы посмотреть на эффективность метода на продолжительном участке времени.

Пару лет назад я написал программу, которая рассчитывает рейтинг ЭЛО для каждой команды после игр друг с другом, по рейтингу рассчитывается вероятность каждого исхода для встречи двух команд, в последствии при прошествии нескольких туров вероятности уточнялись по формуле Байеса. Такой подход в среднем дал 44% угаданных результатов для Английской Премьер Лиги, но когда я стал сравнивать полученные вероятности с коэффициентами букмекера, выяснилось, что букмекер практически всегда дает коэффициент ниже минимально необходимого, как итог вероятность заработка на ставках стремится к 0.

Вы упускаете из виду маржу букмекера, поэтому коэффициент всегда ниже реального.
Самым простым примером для иллюстрации понятия маржи будет встреча равных по силе соперников. Вероятность победы первой и второй команды разделится поровну, т.е. 50% на 50%. Для удобства в расчётах переведём её в безразмерную величину (обозначим вероятность буквой Р):
Вероятность победы и первой и второй команды будет равна 0.5. Считаем коэффициент. Математически он равен:


По логике вещей, БК на данное событие должна была выставить коэффициент 2. Что же делает букмекерская контора? Она вводит так называемую маржу, допустим, 10 %. Это довольно высокая маржа, но она наглядно покажет нам, насколько понизится коэффициент с учётом такой высокой маржи.
Маржа распределится на два плеча по 5 %, и вероятность исходов уже будет составлять в процентах не 50%, а 55% или, соответственно, не 0.5, а 0.55 в безразмерных единицах. Коэффициент с учётом маржи будет составлять:


По расчётам получается так:


  • ставку с вероятностью исхода 50%, Вы должны покупать с коэффициентом 2;
  • ставку с вероятностью исхода 55%, Вы должны покупать с коэффициентом 1.82.

Но в реальности Вы делаете ставку, вероятность исхода которой составляет 50%, на пониженный коэффициент 1.82, в котором букмекерская контора уже учла маржу, в нашем случае 10%.


Величина маржи в разных букмекерских конторах лежит в пределах от 2% до 20%. Чем выше маржа, тем ниже коэффициенты – это закономерность.

Ещё любопытно то, что все букмекерские конторы используют 2 знака после запятой. Однако, при расчёте мат. ожиданий, вероятностей и банально критерия Келли, значимых знаков больше 2. На одной только погрешности возможно делать деньги, когда через компанию проходят тысячи ставок. Но это уже больше похоже на то, что делают банки.
1xbet месяца 3 — 4 назад сделал 4 знака после запятой, но видать что-то пошло не так, и через месяц они опять вернули 2 знака :)
Всю жизнь в пинке трехзначные кефы, кажется в бет365 рассчитывали порой при 2 значном кефе, как с тремя. имхо, малозначимо, никакой профи не выдаст точности в 2 сотых.
1. Вы просчитываете силу нападения и защиты для матча 26 тура (из 38) текущего сезона только по прошлому сезону. Полностью игнорируете данные по матчам текущего сезона, которые лучше отражают реально положение дел.

2. Можно ли как-то просчитать вероятности, если одна из команд только вышла в этот дивизион, например. Т.е. данных по прошлому году по ней просто нет.
Думаю, что автор не преследовал цели заработать решая эту задачу, а лишь хотел продемонстрировать возможности метода.

По первому пункту, ничто нам не мешает добавить данные текущего чемпионата к статистике прошлого, тем самым гипотетически прогноз должен стать точнее.

По второму пункту, если играют команды из разных чемпионатов, или команда перешла в следующий дивизион из предыдущего, мы можем взять ее статистику прошлых матчей поскольку выборки по каждой команде в явном виде не связаны.

Если неправ, поправьте.
Определенно могу сказать, что учитывать статистику клуба по играм в более слабом дивизионе и равноценно переносить ее на игры в премьер-лиге — в корне неправильно.

Небольшой пример:
«Бернли» по итогам Чемпионшипа 15/16 занял первое место и попал в Премьер-лигу на следующий сезон.
Чемпионшип (в среднем за 46 игр)

голы дома 1.65 пропущенные дома 0.61
голы на выезде 1.48 пропущенные на выезде 0.91

Премьер-лига (в среднем за 17 игр, турнир продолжается)

голы дома 1.56 пропущенные дома 1.11
голы на выезде 0.25 пропущенные на выезде 2.25

Все показатели ухудшились. Одно дело играть с Редингом и Брентфордом, совсем другое с Челси и Ливерпулем.

Та же история с международными матчами, если ПСЖ за прошлый сезон в Лиге 1 забил 102 гола (в среднем 2.68 за игру), это не говорит о том, что можно рассчитывать на подобную результативность во встрече с условным Манчестер Сити, который в среднем пропускал больше одного гола за матч. По причине того, что чемпионат Англии по классу превосходит уровень чемпионата Франции. Соответственно голы будут иметь разную ценность.
Со всем согласен, но остается вопрос, как сравнить силу двух чемпионатов. Вы можете предложить модель?
Интересная статья, спасибо!
Хотелось бы вам предложить заглянуть на страничку датасета футбольной статистики на kaggle: https://www.kaggle.com/prajitdatta/ultimate-25k-matches-football-database-european
Мне кажется вы найдёте там много интересного для подобных исследований :)
Диаграммы очень похожи, следовательно модель Пуассона хорошо объясняет соотношение мячей, забитых командой в течение матча.
Очень сильное утверждение.

Действительно, фраза неудачно составлена. Надо поменять.

Спасибо за статью, интересно!
А откуда брали статистику по матчам?

По крупицам, тут есть, но навигация и UI адовое просто — http://www.soccerstats.com/.

Отличная статья, спасибо.

Как в действительности букмейкерские конторы ставки рассчитывают по миллионам событий?
Покупают коэффициенты у аналитических контор, добавляют к ним свою маржу.
Аналитические конторы держат прогнозистов, мат. модели, подбрасывают монеты и управляют рисками.
Если понизить коэфициент мячей за игру (не 1,20, а 0,12), тогда µ(MU) будет в 10 раз больше (10,6). Согласно http://www.matburo.ru/tvbook_sub.php?p=par19, такие значения эта формула не посчитает.
Букмекеры всегда занижают коэффициенты и с этого живут. Реальные ставки можно узнать на бирже betfair.com. Именно по ним букмекеры и вычисляют ставки там, где статистики не достаточно, либо она не вписывается в существующую модель вычислений. то есть практически всегда :) Тупо обрезается 20-30% от бетфэйрского кэфа, и будьте любезны!
Хорошая статья, про миллионы, то это обороты, так как при 2% с оборота и ограничениях по размерам ставок, нужно проставляться только ботом.
Я делал статистику по >300000 событий еще лет 6 назад и проставлялся, все гораздо хуже, чем в рекламе.
Наиболее перспективен лайв футбола, но прокрутить банк неимоверно сложно.
Если кому интересно, то написал такой тотализатор на Python 2.7.
В книге «Soccermatics» (http://www.bloomsbury.com/uk/soccermatics-9781472924124/) убедительно доказано, почему заработать на ставках нельзя. Предложена модель Пуассона, которая помогла автору удвоить вложенный капитал за сезон.

Однако, коэффициенты, которые предлагают букмекерские конторы, не проходят проверку на критерий Келли. Из-за этого «вдолгую» стратегия ставок, даже в случае если мы имеем идеальную модель, убыточна. Критерий Келли нарушается из-за того, что букмекер берет себе процент с каждой ставки.

Например, если вероятность события 0.7, коэффициент, который предложит идеальный букмекер, должен быть равен 1.428… (1/0.7), однако на практике он будет к примеру 1.35 (если маржа букмекера 5%).
Ошибаетесь, заработать можно. Например, в пиннакле, линия в разные моменты времени до трети событий создает вилку с собой. Т.е. очевидно, что ставя на «правильный» конец мы будем выигрывать в бесконечной игре.
У буков задача делить поток ставок, а не точные кефы. И почти всегда можно найти выгодный кеф у одного из конкурентов. Есть даже специальные сервисы.
Тоже пришел к этой идее. Однако есть проблема, линии часто непредсказуемо (?) закрываются, по кр. мере на Пине.

Я так понимаю, эта книга только в бумажном виде существует?

Почему при расчёте шансов победы МЮ добавляется сумма элементов на главной диагонали?
1/(1 — (sum(A[1,2:6])+sum(A[2,3:6])+sum(A[3,4:6])+sum(A[4,5:6])+A[5,6] + sum(diag(A))))
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории