alexsivova Jul 18 2021 at 04:37

Как победить несбалансированность датасета: метод upsampling data

6 min

16K

Python *

Tutorial

Comments 15

UFO landed and left these words here

alexsivova Jul 18 2021 at 09:24

С помощью кодировщиков: LabelEncoder и тд (особенно когда немного вариантов времён). Или извлечь более общую необходимую информацию, например, столбец ‘DOB’ (дата рождения) был заменён на возраст (‘DOB_year’)

UFO landed and left these words here

alexsivova Jul 18 2021 at 09:15

Не стесняйтесь и пишите комментарии: пожелания, критику, вопросы

Feyn Jul 18 2021 at 09:18

Интересно, но вы показали результат уже после upsampling, здорово было бы сравнить с f1 до него.

alexsivova Jul 18 2021 at 09:18

Как было написано, метрики у класса 1 были 0.0

Jovli Jul 18 2021 at 09:25

Автор, ваши результаты не совсем корректны. Метрика улучшилась скорее всего не из-за того, что выборка стала сбалансированной, а из-за того, что и в тестовой и в обучающей выборках присутствуют одни и теже элементы. Естественно, на них классификатор будет угадывать верно, за счёт чего растёт точность. Для чистоты эксперимента надо сначала делить выборки на тестовую и обучающую, а затем в обучающей делать балансировку.

alexsivova Jul 18 2021 at 09:29

Большое спасибо за замечание, для чистоты эксперимента и правда стоило так сделать

emkh Jul 18 2021 at 13:56

Вы можете обновить статью по замечанию выше?

alexsivova Jul 18 2021 at 14:36

Спасибо за ваш комментарий. Задача статьи - осветить метод

anton19286 Jul 18 2021 at 16:34

если тестовая тоже несбалансированна (как и рабочие данные) будет перекос в сторону маленьких классов

Jovli Jul 18 2021 at 17:16

Не совсем. Смысл балансировки выборок в том, чтобы при обучении классификатор не отдавал предпочтения одному из классов. Как видно на примере из статьи, без балансировки классификатор определял всех как класс 0, потому что это наиболее выгодная стратегия. На тестовой выборке баланс классов уже никак не влияет на классификатор. Он всё равно классифицирует поэлементно, не обращая внимание на то, сколько объектов каждого класса нужно обработать.

Балансировать тестовую выборку стоит в том случае, если объектов какого-то класса там мало в той мере, что точность начинает значительно меняться, если 1 из объектов неверно диагностирован. И это не столько вопрос балансировки, сколько вопрос наращивания обучающей выборки, для стабильной проверки точности классификации.

anton19286 Jul 19 2021 at 10:19

прочитал статью из коммента ниже, действительно, случаи разные бывают, зависит от моделей и метрик.

Bitumok Jul 18 2021 at 14:34

Для работы с несбалансированными данными советую попробовать библиотеку imblearn. В ней реализованы различные методы overSampling и underSampling

iroln Jul 19 2021 at 09:22

Не всегда дисбаланс классов — это проблема.
Вот статья на эту тему: https://habr.com/ru/post/349078/