Комментарии / Профиль Elvin

Эльвин Гасанов @Elvin_GSNV

4regretsinmylife@gmail.com

Профиль Публикации 1Комментарии 6Закладки 309

Как я создал межсетевой экран с помощью свёрточных нейронных сетей для веб-приложений с микросервисной архитектурой

Elvin_GSNV 18 дек 2022 в 00:38

"Ослабить" систему защиты флудом (чтобы она не распознала sql-инъекцию) не получится. Скорее всего замедлится время ответа микросервиса или он вовсе упадёт

Посмотреть

Elvin_GSNV 17 июл 2022 в 17:49

Входные данные - это параметры методов HTTP, которые лексикографически проверяются моделью. Датасет собирался из открытых источников
Я старался сделать равномерное перемешивание, чтобы метрики не перекосило. А вот с поисками аномалий я не знаком, поэтому спасибо за наводку - ознакомлюсь

Посмотреть

Elvin_GSNV 17 июл 2022 в 17:31

Редко случается FP ошибка и то только если в тексте специально указывать ключевые слова, очень близкие по контексту к вероятной атаке

Посмотреть

Elvin_GSNV 17 июл 2022 в 01:06

Не требуется, всё обучалось на процессоре Intel Core i7 2.5GHz. Видеокарты у меня нет

Посмотреть

Elvin_GSNV 17 июл 2022 в 01:00

Входные данные при обучении, валидации или тестировании - это выборка размером в 64 элемента из пулов размера 400, 100 и 500 соответственно. Но при экспорте модели может подаваться на вход как 1 элемент, так и несколько сразу. По поводу примеров полезных нагрузок злоумышленника: здесь на хабре проходит авто-санация (sanitizing) вводимого, так что в полезную нагрузку атак не вставить))). Поэтому пока выложу скрин с примером
Пример полезных нагрузок
Я искал в репозиториях kaggle и гитхабов примеры полезных нагрузок, дополнял их примерами реальных атак с разных форумов и использовал burp cheat sheet xss и SQLmap xml, чтобы увидеть каркас запросов в разных субд. По поводу шаблонизаторов - они все похожи, что Jinja2,FreeMarker, Smarty, Twig, поэтому модель можно обучить одним или примесью нескольких из них
В матрице ошибок 64 элемента, так как это выборка случайных 64 полезных нагрузок из пула, размером в 500 элементов. Естественно seed установлен так, чтобы выборка всегда была разной.
Да, слабые места, конечно, есть. Слой Текстовой Векторизации перегружен callback-функцией, которая реализует обработку входных данных. Злоумышленник может использовать различные кодировки, чтобы остаться незамеченным. Поэтому в callback функции надо получше отлавливать такие моменты, я просто с кодировками плохо знаком, а то tplmap иногда западает

По поводу исходников и датасетов: я выложу их, ток немного причешу код, так как он не очень pythonic way получился, я в основном системным программированием занимался на C++. Это моя вторая попытка писать нейронки. По поводу paperswithcode спасибо за наводку, это что-то типа Hugging face?

Посмотреть

Elvin_GSNV 16 июл 2022 в 19:50

Я увидел в статье Яна Лекуна (https://arxiv.org/pdf/1502.01710.pdf), что он применяет свёрточную нейросеть для распознавания естественных языков на уровне символов, поэтому подумал, что для формальной выборки свёртки тоже могут подойти. А в статье Юна Кима (https://arxiv.org/pdf/1408.5882.pdf) увидел многоканальную CNN для классификации предложений. Более того, Джейсон Браунли тоже использовал CNN для классификации текстов (https://machinelearningmastery.com/develop-word-embedding-model-predicting-movie-review-sentiment/). Поэтому выбор пал на CNN

Посмотреть