Как стать автором
Обновить

Обнаружение вторжений с применением технологий машинного обучения. Часть 2

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.2K
Всего голосов 1: ↑1 и ↓0+3
Комментарии4

Комментарии 4

Но нужно помнить, что очень высокие оценки производительности модели XGBoost могут указывать на возможные проблемы, такие как переобучение, дисбаланс классов или наличие шума в данных.

  1. Переобучение вряд ли, учитывая что скор на тесте не сильно отличается

  2. Дисбаланс может быть, так нужно было на него таргет проверить. И метрику ROC-AUC использовать, а не Accuracy.

  3. Про шум не понял. Опять же скор на отложенной выборке должен быть упасть.

Сомневаетесь - добавьте кросс-валидацию. И посмотрите feature importance.

В данном случае переобучение действительно маловероятно, так как оценка на тестовой выборке не сильно отличается, но нужно учитывать, что это один из возможных вариантов, который нельзя полностью исключать.

Если есть необходимость провести более глубокий анализ полученных результатов, то можно проверить наличие дисбаланса классов, и в этом случае метрика ROC-AUC может быть полезна.

Если требуется подробно проанализировать наличие шума в данных, то использование отложенной выборки в анализе может дать хорошие результаты.

Извините, но такое впечатление, что за вас ChatGPT отвечает. Это общие рекомендации, не привязанные к конкретному случаю, конкретным данным. На уровне разговоров очень много что ещё можно тут сделать. Но нужно смотреть на конкретные данные. Делать всё подряд с конкретными данными смысла нет, да и это физически невозможно. Нужно постепенно исследовать данные и выбирать соответствующие им методы работы и модели.

Так как разобранный пример носит обучающий характер, и включает в себя обзор сразу всех шагов по решению данной задачи, то я не останавливалась более подробно на одном из них. Но вы верно заметили, что если анализировать данные и результаты более глубоко, то следует расширить метрики и проработать полученные результаты на используемых данных.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий