Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении / Комментарии / Хабр

Dreamlone 28 авг 2022 в 00:23

Большое спасибо за комментарий и за такую оценку!
По поводу предобработки перед началом процесса идентефикации пайплайна - действительно, предварительную "грубую" вычистку данных следует производить перед началом процесса оптимизации (поиска структуры пайплайна). Во первых, это довольно затратный процесс - проводить его перед началом обучения каждого пайплайна расточительно. Во вторых, такая вычистка не отличается вариативностью и её оптимизировать довольно сложно, если вообще возможно.

Однако более тонкую предобработку, такую как энкодинг категориальных признаков и заполнение пропусков можно проводить уже разными способами. Такую предобработку можно и нужно настраивать. Рад, что про наш опыт и реализованный подход Вам было любопытно почитать :)