Как стать автором
Обновить

«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Время на прочтение8 мин
Количество просмотров7.4K
Всего голосов 13: ↑11 и ↓2+9
Комментарии37

Комментарии 37

НЛО прилетело и опубликовало эту надпись здесь

18.1818 фактов (в среднем) о каждом человеке

НЛО прилетело и опубликовало эту надпись здесь

Вы, вероятно, не сталкивались с OLAP и многомерными данными

НЛО прилетело и опубликовало эту надпись здесь

Тогда держите, на всякий случай: https://www.excel-easy.com/data-analysis/pivot-tables.html

«У автора 55000 наблюдений занимают больше миллиона строк» — что мы называем наблюдением? Там данные о 55000 лицах. О каждом лице n фактов, каждый из которых может иметь несколько параметров (а не одну ячейку-пересечение человек vs факт), уникальных «параметров факта» (aka Dimension) — 65. Наблюдений — 55000 * n.

НЛО прилетело и опубликовало эту надпись здесь

Конкретно для автора — не знаю, не углублялся в его исследование. В общем случае — потому, что есть «параметры для параметров», и массив уже не двухмерный. В этом вся суть OLAP. Хранить такие данные в Excel, действительно, неудобно.

«Конкретно для автора — не знаю,» — а чтобы комментарий выше не выглядел простой отпиской, постараюсь привести пример, когда двухмерная таблица недостаточна/неудобна, по сравнению с декартовым произведением в строках.

Один из самых простых (и часто встречающихся) метапараметров — время. Допустим, у каждого человека мы измеряем всего два параметра: рост и вес. Двухмерной таблицы будет достаточно, если нужен срез данных за один момент времени (например, набор призывников, у них ещё и возраст одинаковый, нам на радость). Но обычно каждый человек (спортсмен — уж точно) измеряет свои параметры с некоторой периодичностью.

Обходясь двухмерной таблицей, мы, в лучшем случае, получим декартово произведение в столбцах (при этом время может быть только дискретным): рост в M году, вес в M году, рост в N году, вес в N году. И таблица будет заполнена целиком только при условии, что изначально ведётся для всех по определённым правилам. В реальной жизни это почти невозможно (особенно если расширить таблицу на несколько поколений).

Таблица, построенная линейно, позволяет не только указывать даты с любой точностью не создавая пустых записей, но и более гибко строить выборки: срезы, усреднённые показатели, временные ряды.

НЛО прилетело и опубликовало эту надпись здесь

Классно вы тут вдвоем уже все решили, не понимая ничего о структуре данных :) Итак, по порядку. С OLAP знаком и уже давно. Да, занимает больше миллиона и гораздо больше, потому что вы забили каждого игрока ещё умножить на кол-во матчей, которые он сыграл начиная с сезона 15/16. Я собираю данные не по игрокам, а по матчам, по каждому матчу из ЮФЛ-ов, МРПЛ и взрослому футболу (страны представлены на графиках), соответственно туда и попадают игроки сыгравшие в этом матче или попавшие в заявку, вот их уникальных и будет более 55 000 тысяч за 6 сезонов.

НЛО прилетело и опубликовало эту надпись здесь

А как собственно одно противоречит другому? :) Я собираю данные по матчам, представьте себе там содержатся данные по игрокам. Футболистов уже собралось более 55000. Критикуете тут только вы, я лишь ответил на ваш комментарий, к тому же по существу :)

Вообще структура данных состоит из каждого матча, где каждая строка это игрок с 65 признаками и метриками, поэтому и получилось более 1 млн. строк. А вообще, мне нужно хранилище, которое будет пополнояемое без ограничений в ближайшие десятилетия, поэтому и выбрал облачную базу.

По поводу месяца рождения, читал давненько книгу (к сожалению не вспомню название), там автор собирал статистику по хоккею в Канаде. Там точно такая же корреляция и автор сетует на то, что юниорские чемпионаты разделены по году рождения и дети родившиеся в начале года имеют преимущество в развитии по сравнению с теми кто в конце (для детей разница в год существенна). Ну а дальше, детей с лучшими показателями по своему году уже «ведут» и соответственно статистически именно январско-февральские дети становятся игроками высших хоккейных лиг.

Малкольм Гладуэлл «Гении и аутсайдеры»

Гладуэлл приводит интересную статистику дат рождения лучших канадских хоккеистов. Выяснилось, что большинство из них родились в январе – апреле. В чем секрет такой закономерности? "Порог отсечения" – некая пограничная дата, которая становится залогом успеха. В примере с хоккеистами это 1 января, когда заканчивается набор в возрастные хоккейные группы. "Ребенок попадает в девятилетнюю группу, если ему исполнилось девять лет до 1 января. Если 2 января ему исполняется десять лет, то он будет играть в одной группе с ребенком, который отпразднует десятый день рождения аж в декабре. А в этом предподростковом возрасте разница в 12 месяцев означает очень заметные различия в физической форме". Ну а дальше история понятна – старшего ребенка принимают за более сильного и способного, начинают усиленно тренировать, отправлять на соревнования, выделять лучшего тренера, и к 13 – 14-ти годам он обладает достаточным мастерством для попадания в Канадскую хоккейную лигу. А младший сверстник остается на скамье аутсайдеров просто потому, что родился не в том месяце…

Да, тема не новая, но не её я хотел осветить, а показать данные в сравнении с другими странами. Есть же, например, Англия, в которой из покон лет АПЛ считается самым сильным чемпионатом в мире. И мы видим, что футболисты играющие в АПЛ, Чемпионшипе, 1 и 2 лигах равномерно рождены в течении года. Внимание вопрос, почему у них так, а у нас иначе? :)

Посмотрите Человек, который изменил всё (2011), возможно появятся дополнительные идеи

Мне кажется, аналитика футбола сродни изучению и прогнозу погоды. Да, можно много чего мерить и строить красивые графики, но предсказать и как-то повлиять на результаты конкретной игры исходя из долгосрочных статистических исследований - практически бессмысленно. Слишком много случайных или непредсказуемых параметров, слишком много эмоций и чисто человеческих факторов. Но рад ошибиться, если это впервые будет успешно применено на нашей сборной)

Никто, кроме меня, эти данные не собирает

Учитывая, сколько денег вбухивается в футбол, у меня до сих пор была уверенность, что его математическим анализом занимаются целые институты, только это особо не афишируется. На зарплату одного хорошего футболиста можно содержать целый отдел аналитиков.

Думаю, недалек день, когда искусственный интеллект будет в реальном времени анализировать игру соперника и давать подсказки тренеру. Но и тут остается человеческий фактор: как говорится, некоторым закон не писан, если писан, то не читан, если читан, то не понят, если понят, то не так.

Мы не говорим же о 100% уверенности, мы говорим о вероятностях. Ближайшую погоду предсказать можно и достаточно точно, да и букмейкеры как-то считают коэффициенты, и что-то мне подсказывает, делают они это успешно. Так что аналитика футбола это тот случай, где повысив точность с 50% до 51% можно срубить кучу денег.

В киберспорте уже пару лет во время матча показывают прогноз нейросети на ту или иную ситуацию, та обучена на выборке подобных ситуаций в целом и в добавок на игре конкретного игрока в подобных ситуациях.

Согласен, что на зп одного игрока можно было бы собрать целую команду DS, которая трудилась бы на благо клуба. Но футбольные реалии немного иные. К примеру, у Ливерпуля, РБ Лейпцига и Бенфики есть команды DS, которые занимаются обучением, как описательной статистики, так и предиктивных моделей для подготовки к матчам и разбору соперников, а так же для селекции футболистов. Если говорить о России, то у нас есть несколько человек, которые пытаются внедрить культуру Data Driven, но пока всё происходит со скрипом. Пока в головах манеджмента и управленцев не сформируется потребность, будет тяжело доносить до них о необходимости анализа данных.

По поводу антропометрических данных.
Детский тренер всегда будет выбирать воспитанников покрупнее. С ними в рамках одной возрастной категории выиграть легче. А отчитывается он как-раз по текущим результатам, а не по дальнейшим результатам выпускников. А дальше — естественно антропометрия выравнивается и получаются довольно заурядные футболисты. Проблема в критериях оценки, а не в желании тренеров.
По поводу нападающих.
Нападающий нападающему рознь. Вспомнить хотя бы историю Агуэро и Пэпа, когда Агуэро сидел на лавке и сбрасывал вес, чтобы иметь возможность отрабатывать в защите, как того требовал Пэп. Термин нападающий сейчас очень размыт, так же как термин защитник.

Ну почему всегда? Так сейчас устроено в нашем детско-юношеском футболе. Действительно, при селекции мальчиков впервую очередь обращают внимание на рост родителей, а также бабушек и девушек и этот подход на серьёзных "щщах" культивируется на различных скаутских курсах. Но я на цифрах доказал, что этот подход утопия. Нет корреляции между ростом и весом центральных и крайних нападающих и количеством забиваемыми ими голами, ровно также, как и антропометрией вратарей и защитников, и пропускаемыми ими голами. Есть академии, в которых играют низкие и худощавые футболисты, которые и забивают больше средних показателий в лигах, так и пропускают меньше средних показателей в лигах. Так, что тут вопрос к РФС, как мы на уровне ДЮСШ выстраиваем селекцию мальчиков 7-8-9-10 летнем возрасте и тд. Если мы хотим 11 баскетболистов на поле, то мы всё правильно делаем. Если хотим побеждать на международной арене, учитывая отрицательные результаты наших клубов, молодежных и основной сборных, то значит, нам нужно, что-то менять именно в воспитании молодых кадров.

Основная проблема российского футбола в том, что учатся в некоем СДЮСШОРе два отрока. Один талант - юный Пеле, у другого папа депутат, помощник замминистра спорта или просто богатый человек, которому не жалко денег на будущее сына. В молодёжную сборную попадает второй отрок.
И пока это правило не изменится (и не пройдёт лет 10 с этого знаменательного момента) - не быть сборной РФ чемпионом.

Вот, например, про это. https://bobsoccer.ru/user/46007/blog/5-prichin-deficita-molodyh-futbolnyh-talantov-v-rossii-chast-2.html. Габариты кандидата там, к слову, тоже упоминаются - такое явление есть. Но всё-таки это не основная причина низких показателей России в футболе.

Не знаю как в футболе (там все-таки совсем другие деньги). Но у нас на биатлоне тренировки были бесплатные, но на сборы и соревнования ездили за свой счет и соответственно многие, кто действительно хорошо выступали никуда не ездили, а продолжали для себя кататься в локальном лесу.

В "Большая игра" 16 серия (Речь Тренера Попова) прекрасно сказано. ( https://youtu.be/0Hkd0Crr7oQ)

Да, есть такая проблема. Но про неё не любят говорить, даже те, которые попали под этот каток не справедливости.

А почему в первой табличке (игроков, по месяцу рождения) месяцы не по порядку?

Вероятно, отсортировано по числу футболистов, родившихся в этом месяце.
«Анализ показывает, что футболисты рождаются в первые 3 месяца года: январь, февраль, март.»

Таки нет. И в первой колонке и в последней проценты идут вверх-вниз. В первой есть 8-9-8, в последней 10-8-10. То есть сортировка не по ним. Не по случайной стране же сортировать?

Месяцы отсортированы от большего к меньшему по количеству футболистов рожденных в этом месяце суммарно по всему массиву данных. Дальше разбиты по чемпионатам. А дальше уже отражена доля каждого месяца внутри чемпионатов конкретной страны. Например, в Нигерии "декабрят" 18%, но в общем массиве гораздо меньше, поэтому декабрь находится в нижней части списка месяцев. Таким образом я и провожу сравнение между странами и показывают различия для дальнейшего анализа.

Сам очень интересуюсь и увлекаюсь футболом! Занимаюсь организацией любительской лиги в городе и сам играю.
Внимательно ознакомился с вашим трудом. Нисколько не умаляю проделанные данные, но не вижу какой либо аналитики. Графики и диаграммы это хорошо, но это не аналитика, это всего лишь визуализация и инфографика. А выводы которые вы делаете и так всем близким к футболу людям известны и понятны, и насчет антропометрии детей и насчет уровня футбола.
Нужна аналитика, которая подсказывает и даёт неожиданный/нетипичный/неинтуитивный результат. Тогда и деньги найдутся вам на проект и он будет полезен футболу в целом.

Спасибо, что внимательно ознакомились с моим трудом. Но видимо не до конца внимательно :) В рамках своих статей и публикаций я уже достаточно опубликовал инсайтов, которые по идее должны привести к изменениям в детско-юношеском да и во взрослом футболе. Комментарии "и так всем понятны" не работают, потому что если всем понятны, то почему ничего не меняется? Где доказательство на цифрах? Я же исповедую культуру data driven - принимаемые решения на основе проанализированных данных. Каждый свой вывод и инсайт я подкрепляю графиком и цифрами, а это уже инной подход. Ну, а если вы за графиком ничего не видите, ну это вопрос к лично вашему отношению к анализу данных, верите вы в это или нет, я вот верю.

Про свясь "месяц рождения / шанс стать проф-футболистом" известно весьма давно. Но другие данные могуть выявить и неизвестные зависимости. Удачи вам.

Было бы интересно посмотреть статистику по другим видам спорта. Какие менее всего зависят от даты рождения.
Еще такая статистика интересна с точки зрения всяких астрологов — родился ребенок в январе — «ваш сын моет стать футболистом».
Зарегистрируйтесь на Хабре, чтобы оставить комментарий