Как стать автором
Обновить

Обнаружение вторжений с применением технологий машинного обучения. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.1K
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

Комментарии 5

Что-то я не увидел особого анализа данных. Хотя бы распределения признаков и целевой переменной нужно было посмотреть. Даже просто графики распределения нарисовать - уже многое можно увидеть.

На рисунке 1 изображены два графика. На первой диаграмме изображено процентное соотношение видов протоколов в исходных данных, что является одним из признаков, а на второй процентное соотношение видов сетевых соединений, которые относятся к атакам или нормальным соединениям, что как раз и является целевой переменной. В данном случае особый интерес представляла именно вторая диаграмма для целевой переменной, так как от этого во многом зависели дальнейшие шаги.

А, пардон, хотя бы для целевой переменной график есть, это хорошо.

Как я понял, здесь используется датасет KDD-CUP-99, а чем обусловлен выбор этого устаревшего датасета? Есть же современные CICIDS2017, UNSW-NB15 и т.д., которые сейчас и используются в подобных исследованиях.

Использование датасета KDD-CUP-99 обусловлено его признанием как стандарта для сравнения эффективности методов обнаружения сетевых этак, доступностью, документированностью, обширностью и разнообразием данных.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий