Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Имеется собранный (размеченный) датасет, существенного размера
(например, см. вот эту статью)
Какие именно числа нужно взять и откуда их взять?
Числа из таблички выучат мусор, потому в ней нет ключевых фич
Модель должна быть time-aware, здесь ключевой компонент зависит от времени, как это учесть в алгоритме обучения?
XGBoost — алгоритм из семейства ансамблей, у них не слишком хорошо с interpretability, а здесь это с самого начало предполагалось важным условием
Вы используете показатели из профиля компании, почему бы не взять их?
И еще: почему вы искали единичные примеры, а не построили график зависимости хабраиндекса от каждой переменной?
Введение в практическую аналитику, или что общего у нейронных сетей с таблетками для похудения