Pull to refresh

Comments 2

Спасибо за интересный и актуальный обзор. Когда вы описываете методы балансировки данных, вы упоминаете следующие методы: взвешивания классов (Class Weighting), увеличения (Oversampling) выборки, уменьшения (Undersampling) выборки, генерации синтетических данных (SMOTE, ADASYN и др.), ансамблирования моделей (Ensemble Techniques). Кроме того, вы отмечаете контекстные методы (Cost-sensitive learning и Cascade-классификацию).

Но когда вы переходите к выбору оптимального метода вы рассматриваете только методы SMOTE, RandomUnderSampler, NearMiss, ADASYN, Сlass Weight.

Было бы замечательно, если бы вы изобразили свою идею в виде алгоритма: несбалансированные данные (условно тип 1), тогда применяем метод такой-то, используем метрику такую-то; несбалансированные данные (условно тип 2), тогда используем метод такой-то и т.д. Такой алгоритм мог бы служить учебным пособием по работе с несбалансированными данными. А если бы появились ссылки на литературу, то вообще было бы счастье.

все же от статьи на хабр ожидаешь несколько большего чем просто перечисление методов, хотелось бы на примерах реальных наборов данных посмотреть какое реальное улучшение классификаторов получается при применении разных методов.

Sign up to leave a comment.