Как стать автором
Обновить

Комментарии 2

О том что пропуски нужно заменять медианой или усеченным средним, а не обычным писали ещё в 78 году. И в тоже время дали определение, что пропусков существует 3 вида:
полностью случайные, случайные и неслучайные, если у вас пропуски любого типа кроме полностью случайных, даже самые крутые методы скорее всего не смогут корректно их восстановить.
В начале нужно определить какой у вас вид пропусков, а потом уже делать простое восстановление(которое здесь описано) или попытаться предсказать их тем же missForest, а лучше вообще использовать Multiple imputation (пакет mice).
Насчет нормализации:
два представленных вида существуют, так как для разных моделей нужна разная нормализация: для метрических моделей(например, KNN) нужна минимакс нормализация, а для линейных(например, SVM) z-нормализация(стандартизация). Всё это необходимо для того чтобы модель лучше работала, это в принципе в любом курсе рассказывается.
Насчет кодирования категориальных переменных, то что они есть это намек использовать класс логических моделей (например, RF или Catboost). Вот тут более менее расписано как делать кодирование категориальных переменных: www.kaggle.com/waydeherman/tutorial-categorical-encoding
Спасибо большое за дополнение!
Поделитесь, пожалуйста, ссылкой на статью про пропуски. Очень интересно ознакомиться.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории