Как стать автором
Обновить

Борьба с несбалансированными данными

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров22K
Всего голосов 12: ↑9 и ↓3+9
Комментарии2

Комментарии 2

Спасибо за интересный и актуальный обзор. Когда вы описываете методы балансировки данных, вы упоминаете следующие методы: взвешивания классов (Class Weighting), увеличения (Oversampling) выборки, уменьшения (Undersampling) выборки, генерации синтетических данных (SMOTE, ADASYN и др.), ансамблирования моделей (Ensemble Techniques). Кроме того, вы отмечаете контекстные методы (Cost-sensitive learning и Cascade-классификацию).

Но когда вы переходите к выбору оптимального метода вы рассматриваете только методы SMOTE, RandomUnderSampler, NearMiss, ADASYN, Сlass Weight.

Было бы замечательно, если бы вы изобразили свою идею в виде алгоритма: несбалансированные данные (условно тип 1), тогда применяем метод такой-то, используем метрику такую-то; несбалансированные данные (условно тип 2), тогда используем метод такой-то и т.д. Такой алгоритм мог бы служить учебным пособием по работе с несбалансированными данными. А если бы появились ссылки на литературу, то вообще было бы счастье.

все же от статьи на хабр ожидаешь несколько большего чем просто перечисление методов, хотелось бы на примерах реальных наборов данных посмотреть какое реальное улучшение классификаторов получается при применении разных методов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий