Борьба с несбалансированными данными / Comments / Habr

Marfa-Marfa Oct 27 2023 at 00:22

Спасибо за интересный и актуальный обзор. Когда вы описываете методы балансировки данных, вы упоминаете следующие методы: взвешивания классов (Class Weighting), увеличения (Oversampling) выборки, уменьшения (Undersampling) выборки, генерации синтетических данных (SMOTE, ADASYN и др.), ансамблирования моделей (Ensemble Techniques). Кроме того, вы отмечаете контекстные методы (Cost-sensitive learning и Cascade-классификацию).

Но когда вы переходите к выбору оптимального метода вы рассматриваете только методы SMOTE, RandomUnderSampler, NearMiss, ADASYN, Сlass Weight.

Было бы замечательно, если бы вы изобразили свою идею в виде алгоритма: несбалансированные данные (условно тип 1), тогда применяем метод такой-то, используем метрику такую-то; несбалансированные данные (условно тип 2), тогда используем метод такой-то и т.д. Такой алгоритм мог бы служить учебным пособием по работе с несбалансированными данными. А если бы появились ссылки на литературу, то вообще было бы счастье.