Комментарии 6
Прежде чем приступать к моделированию, нужно выполнить «центровку» и «стандартизацию» данных путём их масштабирования. Масштабирование выполняется из-за того, что разные величины выражены в разных единицах измерения. Эта процедура позволяет организовать «честную схватку» между признаками при определении их важности.
Для расчёта feature importance при помощи tree-based моделей, на самом деле, делать это не обязательно: в отличие от других моделей, в деревьях не используется взвешивание признаков, и любые монотонные преобразования не повлияют на результат (с точностью до численной погрешности).
y_train = np.array(y_train) было сильно.
pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.values.html
pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.values.html
Подскажите пожалуйста, подходит ли PCA для задач регрессии и множественной классификации? Заранее спасибо.
Спасибо за статью.
Каэется вы забыли определить - rfc_2
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Random Forest, метод главных компонент и оптимизация гиперпараметров: пример решения задачи классификации на Python