Статья неплохая, автору плюсик в карму за то, что не побоялся написать статью и своем исследовании.
НО есть вопросы к реализации и данным:
1) Как уже спросили выше, что есть входные данные? Это http-запрос или что-то иное? Из каких источников собирался датасет?
2) Какое у вас соотношение классов в выборках для модели? В реальном мире на 99.(9)% легитимного трафика будет приходиться 0.(1)% вредоносного трафика, то есть задача МО переходит из классификации в поиск аномалий, поэтому стандартные методы классификации могут давать больше FP сработок.
Во всяком случае было интересно увидеть нестандартный подход, к стандартной проблеме)
Статья неплохая, автору плюсик в карму за то, что не побоялся написать статью и своем исследовании.
НО есть вопросы к реализации и данным:
1) Как уже спросили выше, что есть входные данные? Это http-запрос или что-то иное? Из каких источников собирался датасет?
2) Какое у вас соотношение классов в выборках для модели? В реальном мире на 99.(9)% легитимного трафика будет приходиться 0.(1)% вредоносного трафика, то есть задача МО переходит из классификации в поиск аномалий, поэтому стандартные методы классификации могут давать больше FP сработок.
Во всяком случае было интересно увидеть нестандартный подход, к стандартной проблеме)