Комментарии 1
Пробовал я SMOTE когда-то давно. Мне показалось, что смысла в нём вообще нет. Если только как обработка перед самыми простыми моделями вроде логистической регрессии, для которой баланс классов может быть неприятен и где нет настроек, позволяющих его компенсировать. Большинство же современных моделей машинного обучения либо имеют настройки, позволяющие взвешивать классы, либо в принципе им не важен дисбаланс, они с любым балансом работают хорошо. Проблема SMOTE в том, что сэмплы получаются не всегда "натуральными". Нормальная модель выделит имеющиеся зависимости и из изначальных несбалансированных данных. А из данных, "обогащённых" через SMOTE модель может вывести не те зависимости, которые там есть изначально.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Синтетическое генерирование данных (SMOTE)