Предварительная обработка данных / Комментарии / Хабр

GeksliMazalTov 16 июл 2020 в 08:44

О том что пропуски нужно заменять медианой или усеченным средним, а не обычным писали ещё в 78 году. И в тоже время дали определение, что пропусков существует 3 вида:
полностью случайные, случайные и неслучайные, если у вас пропуски любого типа кроме полностью случайных, даже самые крутые методы скорее всего не смогут корректно их восстановить.
В начале нужно определить какой у вас вид пропусков, а потом уже делать простое восстановление(которое здесь описано) или попытаться предсказать их тем же missForest, а лучше вообще использовать Multiple imputation (пакет mice).
Насчет нормализации:
два представленных вида существуют, так как для разных моделей нужна разная нормализация: для метрических моделей(например, KNN) нужна минимакс нормализация, а для линейных(например, SVM) z-нормализация(стандартизация). Всё это необходимо для того чтобы модель лучше работала, это в принципе в любом курсе рассказывается.
Насчет кодирования категориальных переменных, то что они есть это намек использовать класс логических моделей (например, RF или Catboost). Вот тут более менее расписано как делать кодирование категориальных переменных: www.kaggle.com/waydeherman/tutorial-categorical-encoding

Предварительная обработка данных

Комментарии 2

Публикации