Обновить
7
Александр@Giproman

Data Engineer & Data Scientist

Отправить сообщение

Про заглядывание в будущее ответил выше. Спасибо за информацию про скейлеры!

Спасибо за рекомендации, приму на заметку ;)

Модель позволяет определять победителя с учетом разных параметров, наиболее часто используемыми из которых оказались разность очков команд и разность времени в атаке. Помимо них есть еще 20+ параметров, которые также учитываются моделью и вносят вклад в её качество.

Да, можно сказать, что разность очков это положение в турнирной таблице. При этом и лидеры проигрывают середнякам и аутсайдерам.

Время в атаке берется по предыдущим матчам. Параметры в работе делятся на 2 типа - те, которые известны до матча (время отдыха, наличие переезда, разность очков и т.д.) и те, которые рассчитываются из предыдущих матчей (время в атаке, кол-во бросков, силовые приемы и т.д.). Игровая статистика после матча не используется.

Интересная идея, спасибо! У меня была мысль сделать кластеризацию команд и матчей, но руки до этого не дошли. Вполне возможно, что какие-то экземпляры будут сильно отличаться от тренда.

Рад, что работа понравилась - в ней, в принципе, много чего еще можно применить)

Спасибо за рекомендации! По логистической регрессии возможные варианты гиперпараметров принимались в зависимости от типа solver’а. В моделях случайного леса и бустингов использовались одинаковые гиперпараметры - часть из них находилась в диапазоне дефолтных значений всех рассматриваемых моделей (например, кол-во деревьев в диапазоне 100…1000 – макс. значение не ставил, т.к. и так не малое время обучения увеличилось бы в разы), другие (такие как learning rate и subsample, снижение которых способствует улучшению качества моделей) принимались со значениями меньше дефолтных.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Ученый по данным
Средний
Python
SQL
Docker
Linux
Базы данных