Комментарии / Профиль Giproman / Хабр

Александр@Giproman

Data Engineer & Data Scientist

ПрофильСтатьи1ПостыНовостиКомментарии6

Определение победителей матчей регулярного чемпионата КХЛ методами классического ML

Giproman 20 янв 2023 в 17:09

Про заглядывание в будущее ответил выше. Спасибо за информацию про скейлеры!

Определение победителей матчей регулярного чемпионата КХЛ методами классического ML

Giproman 20 янв 2023 в 17:03

Спасибо за рекомендации, приму на заметку ;)

Определение победителей матчей регулярного чемпионата КХЛ методами классического ML

Giproman 20 янв 2023 в 17:02

Модель позволяет определять победителя с учетом разных параметров, наиболее часто используемыми из которых оказались разность очков команд и разность времени в атаке. Помимо них есть еще 20+ параметров, которые также учитываются моделью и вносят вклад в её качество.

Да, можно сказать, что разность очков это положение в турнирной таблице. При этом и лидеры проигрывают середнякам и аутсайдерам.

Время в атаке берется по предыдущим матчам. Параметры в работе делятся на 2 типа - те, которые известны до матча (время отдыха, наличие переезда, разность очков и т.д.) и те, которые рассчитываются из предыдущих матчей (время в атаке, кол-во бросков, силовые приемы и т.д.). Игровая статистика после матча не используется.

Определение победителей матчей регулярного чемпионата КХЛ методами классического ML

Giproman 18 янв 2023 в 11:58

Интересная идея, спасибо! У меня была мысль сделать кластеризацию команд и матчей, но руки до этого не дошли. Вполне возможно, что какие-то экземпляры будут сильно отличаться от тренда.

Определение победителей матчей регулярного чемпионата КХЛ методами классического ML

Giproman 18 янв 2023 в 11:47

Рад, что работа понравилась - в ней, в принципе, много чего еще можно применить)

Определение победителей матчей регулярного чемпионата КХЛ методами классического ML

Giproman 18 янв 2023 в 11:44

Спасибо за рекомендации! По логистической регрессии возможные варианты гиперпараметров принимались в зависимости от типа solver’а. В моделях случайного леса и бустингов использовались одинаковые гиперпараметры - часть из них находилась в диапазоне дефолтных значений всех рассматриваемых моделей (например, кол-во деревьев в диапазоне 100…1000 – макс. значение не ставил, т.к. и так не малое время обучения увеличилось бы в разы), другие (такие как learning rate и subsample, снижение которых способствует улучшению качества моделей) принимались со значениями меньше дефолтных.

Информация

Специализация