Модель позволяет определять победителя с учетом разных параметров, наиболее часто используемыми из которых оказались разность очков команд и разность времени в атаке. Помимо них есть еще 20+ параметров, которые также учитываются моделью и вносят вклад в её качество.
Да, можно сказать, что разность очков это положение в турнирной таблице. При этом и лидеры проигрывают середнякам и аутсайдерам.
Время в атаке берется по предыдущим матчам. Параметры в работе делятся на 2 типа - те, которые известны до матча (время отдыха, наличие переезда, разность очков и т.д.) и те, которые рассчитываются из предыдущих матчей (время в атаке, кол-во бросков, силовые приемы и т.д.). Игровая статистика после матча не используется.
Интересная идея, спасибо! У меня была мысль сделать кластеризацию команд и матчей, но руки до этого не дошли. Вполне возможно, что какие-то экземпляры будут сильно отличаться от тренда.
Спасибо за рекомендации! По логистической регрессии возможные варианты гиперпараметров принимались в зависимости от типа solver’а. В моделях случайного леса и бустингов использовались одинаковые гиперпараметры - часть из них находилась в диапазоне дефолтных значений всех рассматриваемых моделей (например, кол-во деревьев в диапазоне 100…1000 – макс. значение не ставил, т.к. и так не малое время обучения увеличилось бы в разы), другие (такие как learning rate и subsample, снижение которых способствует улучшению качества моделей) принимались со значениями меньше дефолтных.
Про заглядывание в будущее ответил выше. Спасибо за информацию про скейлеры!
Спасибо за рекомендации, приму на заметку ;)
Модель позволяет определять победителя с учетом разных параметров, наиболее часто используемыми из которых оказались разность очков команд и разность времени в атаке. Помимо них есть еще 20+ параметров, которые также учитываются моделью и вносят вклад в её качество.
Да, можно сказать, что разность очков это положение в турнирной таблице. При этом и лидеры проигрывают середнякам и аутсайдерам.
Время в атаке берется по предыдущим матчам. Параметры в работе делятся на 2 типа - те, которые известны до матча (время отдыха, наличие переезда, разность очков и т.д.) и те, которые рассчитываются из предыдущих матчей (время в атаке, кол-во бросков, силовые приемы и т.д.). Игровая статистика после матча не используется.
Интересная идея, спасибо! У меня была мысль сделать кластеризацию команд и матчей, но руки до этого не дошли. Вполне возможно, что какие-то экземпляры будут сильно отличаться от тренда.
Рад, что работа понравилась - в ней, в принципе, много чего еще можно применить)
Спасибо за рекомендации! По логистической регрессии возможные варианты гиперпараметров принимались в зависимости от типа solver’а. В моделях случайного леса и бустингов использовались одинаковые гиперпараметры - часть из них находилась в диапазоне дефолтных значений всех рассматриваемых моделей (например, кол-во деревьев в диапазоне 100…1000 – макс. значение не ставил, т.к. и так не малое время обучения увеличилось бы в разы), другие (такие как learning rate и subsample, снижение которых способствует улучшению качества моделей) принимались со значениями меньше дефолтных.