Идентификация хакерских атак на базе искусственного интеллекта и применение в межсетевых экранах нового поколения / Хабр

На сегодняшний день современные технологичные подходы к решению задач кибербезопасности приводят к созданию программных или аппаратно-программных решений, которые опираются на быстродействующие алгоритмы и автоматизированный контроль информационных потоков. Одними из классических представителей перспективных и инновационных средств обеспечения защиты информации являются аппаратно-программные платформы Next-Generation Firewalls (NGFW).

Поскольку количество различных сценариев атак на компьютерные сети за последние годы значительно увеличилось – по большей части благодаря существенному росту активности хакерских группировок и объединению их в крупные отряды, возросла и нагрузка на аппаратно-программные платформы первой линии - NGFW. Несмотря на ряд преимуществ и возможностей, современные NGFW требуют для своей успешной работы высокой стабильности и быстродействия собственного программного обеспечения. Ключевое место при разработке таких средств заняла задача по снижению ограничений и оптимизации функционал�� подсистем NGFW.

При проведении анализа функционала платформ NGFW уже представленных или только выходящих на рынок, были выявлены проблемы и аспекты, которые NGFW не решает или решает частично. Вот некоторые из них:

Полная защита от уязвимостей нулевого дня - несмотря на то, что NGFW обеспечивает защиту от некоторых уязвимостей нулевого дня, он не может обеспечить полную защиту от всех новых и неизвестных угроз, аномалий, отсутствующих в сигнатурных базах
Обнаружение и предотвращение сложных целевых атак (APT) - сложные постоянные угрозы (APT) могут обходить защиту NGFW, поскольку они часто используют методы социальной инженерии, фишинга и другие сложные техники, которые трудно обнаружить на уровне сети, следует отметить, что хакеры все чаще объединяют свои усилия в рамках больших групп для реализации атакующих сценариев подобного рода
Автоматический контроль любых сервисов - практика показала, что как и системные администраторы компаний, так и злоумышленники часто используют нестандартные порты для сетевых сервисов, следовательно, требуется интеллектуальная система, которая сможет идентифицировать и автоматически контролировать подключения к любым сервисам.

Результаты этого анализа приводят к выводу о необходимости совершенно новой - интеллектуальной подсистемы в составе NGFW, которая использовала бы продвинутые методы анализа, включая машинное обучение - специализированный для задач кибербезопасности гетерогенный искусственный интеллект, позволяющий идентифицировать и реагировать на распределенные и сложные атаки, выявлять аномалии и подозрительную активность, классифицировать новые виды трафика.

Такой подсистемой может служить Next-generation Intrusion Detection System (NGIDS), комплиментарно дополняющая функционал NGFW, базированная на современных специализированных средствах ИИ. Развитие данной подсистемы в NGFW существенно повысит скорость, точность и эффективность обнаружения хакерских атак, целевых атак и аномальных воздействий.

Исследование и детальный анализ классических современных систем Intrusion Detection Systems (IDS) показал, что стандартные решения требуют постоянного обращения к базе сигнатур, обладают низкой скоростью реагирования на инциденты, а также интегрируются в малое количество архитектур аппаратных платформ.

В данной статье рассматриваются результаты исследований по интеграции в системы NGFW и подсистемы NGIDS алгоритмов интеллектуальной идентификации и классификации широкого спектра хакерских атак.

В результате исследования применимости к данной задаче классических распространенных моделей ИИ выяснилось, что они не решают проблему классификации сетевого трафика, обладают тенденцией к переобучению, работают очень медленно, так, например, метод опорных векторов (SVM) и модель адаптивного бустинга над решающим деревом (AdaBoost) не обеспечивали необходимой сходимости при обучении, такие алгоритмы как метод k-ближайших соседей (KNN) и случайный лес (RF), напротив, были склонны к переобучению на тестовой выборке и сами по себе не могут быть использованы для классификации произвольного трафика.

Для решения задач по точной классифик��ции сетевого трафика и борьбы с переобучением моделей ИИ потребовалось создание собственной высокопроизводительной системы по сбору статистики сетевого трафика и его дальнейшей классификации.

Для этих целей был разработан и внедрен низкоуровневый механизм перехвата сетевого трафика с использованием библиотек WFP для Windows и AF_PACKET сокетов для Linux. Решение позволило избежать копирование лишних данных и захватывать только необходимые блоки данных для анализа.

Собранные статистики сетевого трафика в дальнейшем были поданы на многослойный специально подготовленный ИИ для классификации трафика. На первом слое проводилось уменьшение ошибок и формирование узловой структуры данных с использованием таких алгоритмов как Gini importance и Mean Decrease Accuracy (MDA) на базе Random Forest классификатора, а также алгоритм многомерного дисперсионного анализа MANOVA для формирования данных для аномальных зон.

На втором слое ИИ проводился анализ с применением модифицированного алгоритма самоорганизующихся карт Кохонена (SOM), которые эффективно группируют статистические данные в многомерном поле, упрощая дальнейшую оценку. В каноническом виде карты неспособны к отнесению входных данных к определенному классу, для этого процесс обучения был модифицирован алгоритмом окрашивания карты, позволяющий отнести каждый нейрон сети к конкретному классу данных.

Для увеличения точности классификации трафика самоорганизующимися картами был внедрен алгоритм оптимизации весов во время обучения, позволяющий при обновлении веса нейрона-победителя учитывать не только евклидово рас��тояние до входного вектора из тестовой выборки, но и нормализованное отклонение от весов остальных нейронов в области, определяемой экспоненциальной функцией соседства. Данный метод позволил избежать разрывы первого рода в многомерной карте, что наравне с оптимизирующим градиентным методом спуска к границам областей позволило создать максимально плотную карту напряжённости, использующуюся для присвоения меток класса отдельным нейронам.

Третий слой - финальный в оценке входных данных и данных, полученных в результате работы предыдущего слоя. Использованы подходы на основе нейросети прямого распространения (FNN) для классификации статистических данных и сети с рекуррентными связями (RNN) для оценки статистик временного ряда сетевого соединения.

Для обработки статистических данных был разработан многослойный перцептрон со сверхточными слоями, позволяющими выявить корреляцию входных данных с результатами оценки SOM. Для уменьшения эффекта переобучения были внедрены слои дропаута, усложняющие формирование сильных связей между нейронами сети. Также для нормализации результатов работы сети и предоставления взвешенной оценки отношения к классам атак был внедрен Softmax выходной слой. Для параллельной оценки временных рядов используется модель на базе LSTM ячеек, позволяющая выявить аномалии в последовательности статистик сетевых пакетов. Данный подход позволяет выявить протяженные по времени сетевые атаки, а также определить вредоносный трафик, замаскированный под нормальный трафик.

Для проверки работы ИИ на реальном трафике в рамках тестовой сети был собран стенд. Структурная схема стенда приведена на следующем рисунке:

В качестве внешних вредоносных воздействий была собрана специализированная кодовая библиотека, содержащая базовые и специализированные программы пентестов сетевой инфраструктуры. Для гарантий целостности подхода все воздействия были разбиты на группы атак:

DDoS (типы утилит: golden_eye, slow_loris, MHDDoS) – 61 утилита
Brute-force (типы утилит: patator, pydictor, hydra) – 52 утилиты
Scan (типы утилит: nmap, nikto) – 22 утилиты
Malware (типы утилит: CoronaVirus, AvosLocker, Koxic, BlackMatter, BazarBackdoor в части сетевого заражения) – 19 утилит
Exploit (типы утилит: metasploit+meterpreter, cobalt strike) – 9 утилит.

Классификация велась по образующим признакам - присваивалась группа атаки. Каждая группа содержала подмножество атак, которые отличаются по паттернам и характеристикам.

Таблица результатов тестирования на макете:

Группа атаки	Точность	Ложноположительные	Ложноотрицательные	Аномальные
DDoS	91.9%	4.3%	3.1%	0.7%
Brute-force	91.2%	3.9%	4.3%	0.6%
Scan	93.4%	1.5%	2.2%	2.9%
Malware	93.1%	4.3%	2.2%	0.4%
Exploit	89.8%	6.1%	3.2%	0.9%

По результатам тестирования классификаторов было выявлено, что в крайне низком проценте случаев модель путает тип атаки. Также нормальный трафик может быть распознан как атака в 0.5%. Есть предположение, что и эти результаты можно улучшить оптимизацией сбора параметров и обогащением нейросети обратной связью с подсистем HoneyPot, WAF, DLP.

Для визуальной оценки качества классификации в модель введена карта 128х128 для отображения среза слоев из многомерного пространства на плоскость, а для корректного отображения атак были подобраны следующие гипер-параметры: размеры скрытых слоёв (74, 33, 17), функция инициализации весов слоёв карты, функция активации (Relu6), вероятность исключения нейрона из обучающей выборки для противодействия переобучению (0.04).

Рис. 3. Карта среза ИИ для отображения процесса классификации и сформированных областей

Введение такого визуального инструмента полезно для прозрачного наблюдения и управления ИИ: с помощью него можно выбирать зону контроля - это может быть область сети или группа пользователей, выбирать уровень среза, включать и отключать жесткое или мягкое реагирование в реализации реальной системы.

Рис. 4. – Карта среза ИИ в режиме реального времени

Красные точки – означают «упавшие» на области атаки, сами области и границы – срез ИИ на плоскость.

По результатам исследования можно говорить о успешной проверке подобных архитектур ИИ для комплексной оценки сетевых атак выбранных групп или иного аномального поведения сетевой инфраструктуры. Как мы видим - система получает возможность также способность предоставлять данные визуализации (карта Кохонена) для дальнейшего расследования.

Весь функционал сбора и классификации сетевых статистик был реализован на языке C/C++, что позволяет использовать систему на любых аппаратно-программных платформах, в том числе с ограниченными вычислительными ресурсами, обеспечивая максимально эффективное использование доступных аппаратных ресурсов для достижения высокой производительности.

Итогом работы по созданию и обучению системы классификации сетевого трафика стали следующие показатели точности: до 97% определения сетевой атаки, учтенной при обучении классификаторов, и до 92% точности при определении атаки нулевого дня, статистики которых не были использованы при обучении нейросетевых моделей.

Данная технология была интегрирована в межсетевой экран нового поколения. Результатом совместной работы NGFW и функционала NGIDS с улучшенным классификатором сетевых атак реализованном на языке С++ стало то, что заявленные значения точности классификации при обучении классификаторов и при определении атаки нулевого дня были подтверждены, и соответствуют данным, полученным в ходе экспериментов, что позволило решить проблемы, выявленные в ходе анализа функционала платформ NGFW.

Рис. 5. Карта нейронной сети в 2 мерном срезе многомерного пространства операторов

Рис. 6. Распознавание атак Brute-force, DoS/DDoS, Scan

Рис. 7. Распознавание аномалий в трафике и работе сервисов

Выводы:

Интеграция NGIDS на базе ИИ в NGFW предоставляет мощное решение для защиты сетей от современных киберугроз. Использование искусственного интеллекта позволяет значительно повысить точность обнаружения, минимизировать ложные срабатывания и обеспечивать проактивную защиту от атак. Такие решения становятся неотъемлемой частью стратегии кибербезопасности для организаций всех масштабов, обеспечивая надежную защиту их данных и инфраструктуры.

Алексей Высоцкий

Владимир Чуянов