Comments 28
подбросить монетку: accuracy 50%
статистика, модель, анализ: 44%
одинаково что для расчета срока выполнения задачи, что для прогнозирования исхода футбольного матча.
вы не знаете будущего, точка
тем не менее, почитать любопытно, спасибо)
А как же описание расширенной метрики?
Под спойлером
Это для понимающих, а для людей с улицы типа меня?
Есть такая вещь, как ошибка первого рода. Это "оправдать убийцу". Чувствительность её считается как метрика precision, т.е. доля таких ошибок.
Есть такая вещь, как ошибка второго рода. Это "посадить невиновного". Чувствительность считается как метрика recall, т.е. сколько среди косяков "совсем плохих косяков".
Метрика F1 что-то типа среднего этих двух метрик. Она может быть хорошей только тогда, когда ты не просто угадываешь, но и делаешь это без роста ошибок как первого, так и второго рода
И, вообще, очень странно выглядит, что все добавления к best_params_elo немного повышают точность и f1, но драматически понижают roi. Разве не к максимизации roi стоит стремиться во всех практических аспектах?
C учетом важности фичи "играть дома", нужно считать f1 на классах: победила команда дома, ничья, на выезде, ожидаю резкое падение метрики.
Сам поигрался на данных отсюда. Для сравнения со статьёй чекнул арбитраж между коэффициентами (ставка на каждый исход 1/np.nanmax(bet_ij) если выгодно). Максимум на одной игре roi=0.0788, сумма 13.75. А если действовать по сложному проценту то заоблачные 839778.15
В среднем на игру 0.06%
Специально залогинился чтобы поддержать идеи из шор-листа. Та же Аргентина с Месси и без - большая разница. Но решают не только звезды, в теории неплохо бы анализировать весь состав, от этого зависит стиль игры на каждый конкретный матч.
Подкину идею - бригаду арбитров тоже можно учитывать. Кто-то даёт бороться, кто-то свистит любое касание. Если в команде есть мастера штрафных ударов или хорошая реализация стандартов - это тоже весомый фактор.
Моя встроенная нейросеть показывает довольно высокий процент верных предсказаний в случае игр команд, за которыми я более-менее слежу. Но при этом предсказывать результат отдельного матча - ну, такое. Слишком много влияющих факторов. В итоге это и оттолкнуло от идеи попробовать самому поиграться в ML, понимаю, что не хватит терпения довести до ума))
Проголосовал за Францию, уж больно прагматичный футбол они показывают и с такой скамейкой меньше зависят от случайной травмы ключевых игроков. Ставить, конечно же, не буду, просто с удовольствием посмотрю матч, игра должна быть довольно интересной.
Помимо всего, что вы написали, футбол труден в предсказаниях, потому что это игра с низкой результативностью.
Команде-аутсайдеру зачастую достаточно хоть тушкой, хоть чучелом закатить первую банку, а потом вдесятером окопаться в своей штрафной.
Именно поэтому сейчас популярны разные продвинутые метрики, вроде xG.
Казалось бы, объём данных решает этот вопрос?
Да, xG и прочие продвинутые метрики - это круто. К сожалению, нормально с ними работать сейчас простому смертному как минимум сложно
Объем данных решает только в том плане, что на большом промежутке данные усреднятся. В одном матче команде повезёт, в другом нет, но в среднем они займут свое десятое (допустим) место в таблице. Которое, по недавним исследованиям, хорошо коррелирует с затратами за контракты игроков (и не коррелирует с суммами трансферов).
Но это не особо поможет угадать исход конкретного матча, в этом проблема.
А то, что команд много. Кому-то не повезло, кто-то заколашматил, но в среднем при таких действиях - такой исход?
Конкретный исход так не предсказать, но 50%+ исходов на 100 играх, кажется, вполне.
Берёшь статистику фолов-желётых-красных-пенальти по арбитру? Думаю, тут можно окно и пошире брать, не 8 матчей. Но до VAR и после вар - это же разные судьи, считай?
Но, честно говоря, не верю, что вот прям фича. И если какая-то лига не передаёт арбитра до начала игры, то всё, исключать из прогноза?
Так-то можно и погоду во время матча учитывать. Наверняка полпроцента и там лежит
У Тальмы Лобель в книге "Горячая чашка в холодный день" отдельный раздел посвящен результатам связанным с цветовым восприятием. В том числе в одной из упоминаемых работ показали, что красный цвет формы коррелирует с более высокой вероятностью победы. Так что можно попробовать добавить цвета формы как один из факторов. Еще было бы интересно посмотреть на влияние результата в прошлом матче и в прошлом матче с этой командой.
Ну как прогнозы, сошлись? ;)
как насчет применить вышесказанное на модель расчетов апсетов (больой фаворит не выигрывает, особенно дома), на практике они постоянно случаются, а платят за них намного больше, в разы, так что и стремиться к 50% не надо будет. один из критериев может быть, если сильная команда сыграла вничью или проиграла, след матч с большой вероятностью не выиграет.
Оооо, как раз мое хобби, через которое я и пришел к аналитике данных. Только я занимаюсь UFC, и не использую ML (пока). Футбол наверное самое трудное, что можно выбрать для анализа: 11 человек, один из которых играет руками, от 3 до 5 замен, три исхода матча... Если выбирать командные виды спорта, то думаю лучше было начать с баскетбола. А по поводу ставок, и ориентации на roi, то думаю тут нужно лучше все просчитать, например вспомнить про налог в 13% и про мат.ожидание. Очень трудно будет в среднем добиться коэф. 1.8 и того, что Вам не начнут их резать.
Не плохой материал и хорошая попытка достичь результата.
Я много месяцев посвятил футбольной аналитике (о моей программе можете почитать в статье). Скажу так, выйти за 50% вам будет крайне сложно. И не советую слишком ломать себе голову с такими признаками, как играет или не играет звезда команды. Времени на это убьете много, но это мало что даст.
Я тоже использую случайный лес, сумел сделать f-1 и accuracy в районе 90%, но это не значит, что я угадываю 9 матчей из 10. Каждый новый матч не похож на предыдущий и система будет каждый раз переобучаться. Сейчас очень часто команды играют против статистики, да и вообще как хотят играют. До игры вообще сложно что-то предсказать, по ходу матча шансов чуть больше, но все-равно это непростая задача.
Одна из основных целей - научиться обходить непредсказуемые матчи и применять аналитику только в отношении тех игр, которые являются более-менее предсказуемыми.
Как зануды предсказывают результаты футбольных матчей