Комментарии 2
Отличная статья! Автор очень подробно и понятно всё описал, а главное ответил на вопрос, который меня очень тревожил. Почему же не сделать предобработку перед построение пайплайна???
Большое спасибо за комментарий и за такую оценку!
По поводу предобработки перед началом процесса идентефикации пайплайна - действительно, предварительную "грубую" вычистку данных следует производить перед началом процесса оптимизации (поиска структуры пайплайна). Во первых, это довольно затратный процесс - проводить его перед началом обучения каждого пайплайна расточительно. Во вторых, такая вычистка не отличается вариативностью и её оптимизировать довольно сложно, если вообще возможно.
Однако более тонкую предобработку, такую как энкодинг категориальных признаков и заполнение пропусков можно проводить уже разными способами. Такую предобработку можно и нужно настраивать. Рад, что про наш опыт и реализованный подход Вам было любопытно почитать :)
Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении