Как стать автором
Обновить

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

Время на прочтение14 мин
Количество просмотров8.3K
Всего голосов 12: ↑11 и ↓1+13
Комментарии2

Комментарии 2

Отличная статья! Автор очень подробно и понятно всё описал, а главное ответил на вопрос, который меня очень тревожил. Почему же не сделать предобработку перед построение пайплайна???

Большое спасибо за комментарий и за такую оценку!
По поводу предобработки перед началом процесса идентефикации пайплайна - действительно, предварительную "грубую" вычистку данных следует производить перед началом процесса оптимизации (поиска структуры пайплайна). Во первых, это довольно затратный процесс - проводить его перед началом обучения каждого пайплайна расточительно. Во вторых, такая вычистка не отличается вариативностью и её оптимизировать довольно сложно, если вообще возможно.

Однако более тонкую предобработку, такую как энкодинг категориальных признаков и заполнение пропусков можно проводить уже разными способами. Такую предобработку можно и нужно настраивать. Рад, что про наш опыт и реализованный подход Вам было любопытно почитать :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий