ИИ против ИИ (нападение и защита от киберугроз) / Хабр

Юрий Подгорбунский, Security Vision

Введение

В новой эре кибербезопасности уже сложно справляться с большим ростом и скоростью проведения атак на инфраструктуру организации включая применяемых в ней чат-ботов или агентов на базе искусственного интеллекта (ИИ). Если сегодняшняя тема об атаках и защите с использованием ИИ, то тут можно рассматривать со следующих сторон:

· Атаки на базе ИИ на инфраструктуру включая ИИ.

· Защиту от атак на ИИ в организации.

· Реагирование на атаки и инциденты.

Но для начала не простой темы, хорошо бы разобраться что же такое ИИ, и как это хозяйство управляется на практике?

Что есть ИИ?

ИИ – это технология, позволяющая (частично) компьютерам и машинам имитировать человеческие когнитивные функции, такие как обучение, рассуждение, понимание естественного языка и принятие решений, т.е. выполнять задачи, свойственные человеку.

Развитие ИИ

В течении многих лет основное внимание уделялось моделям ИИ, которые преуспевали в пассивных дискретных задачах, таких как:

· Ответы на вопросы

· Перевод текста

· Генерация изображения и голоса.

Эта парадигма, требующая постоянного человеческого управления на каждом этапе. Сейчас наблюдается смена парадигмы, т.е. переход от ИИ, который просто предсказывает или создает контент, к новому развитию, способному автономно решать проблемы и выполнять задачи – агент на базе ИИ (агент).

Это новое развитие построено вокруг агентов ИИ. Агент – это не просто модель ИИ в статическом рабочем процессе. Это полноценное приложение, которое может составлять планы и принимать действия для достижения целей. Оно сочетает в себе способность языковой модели (LLM) к рассуждению с практической способностью действовать, позволяя справляться со сложными многоэтапными задачами, которые языковая модель сама по себе не может выполнить. Важнейшая способность заключается в том, что агенты могут работать самостоятельно, определять следующие шаги, необходимые для достижения поставленной цели, без постоянного контроля и руководства со стороны человека.

Итак, агент

Агент – это активная автономная система, способная использовать различные инструменты для достижения установленных результатов, одними из ключевых особенностей являются:

· Целеполагание – агент не просто решает определенную задачу, а также стремится к достижению установленной цели.

· Взаимодействие с окружающей средой – с помощью таких инструментов как API, MCP, получая обратную связь с адаптацией (через интерфейсы и интеграции).

· Автономность – позволяет агенту самостоятельно выполнять определенные действия.

· Планирование – агент способен декомпозировать установленную человеком цель и последовательно выполнять действия.

Визуально агента можно представить вот так, на рисунке ниже.

Элементы, входящие в состав агента:

· Приложение – интерфейс взаимодействия с пользователем.

· Интерфейсы и интеграции – интерфейсы, позволяющие агенту использовать внешние инструменты (NG SOAR, Vulnerability Scanner и т.д.).

· Языковая модель (LLM) – тип ИИ, включая модель машинного обучения, используемая для задач обработки естественного языка (а если просто – мозг агента).

· Память – краткосрочные и долгосрочные хранилища данных.

· База знаний (RAG) – данные, на которых дообучается модель (например, киберугрозы из Threat Intelligence (TIP), база знаний, содержащая описание основных известных тактик и методов кибератак – MITRE ATT&CK, базы уязвимостей).

Агент – как две стороны одной медали: его используют как для защиты инфраструктуры в организации (включая анализ – реализация атак без причинения ущерба), так и в нападении (атаках) со стороны злоумышленников.

Агент как инструмент защиты информации:

· Поиск уязвимостей (до того, как атакующие найдут их и используют для достижения целей)

· Прогноз векторов атак

· Моделирование угроз безопасности информации

· Обнаружение аномалий

· Реагирование на киберинциденты

· Усиление возможностей команды кибербезопасности.

Агент со стороны злоумышленников:

· Проведение фишинговых компаний

· Социальная инженерия

· Подделка внешности и голоса человека

· Поиск и эксплуатация уязвимостей

· Реализация угроз (например, отравление данных в части ИИ)

· Обход средств защиты информации

· Генерация вредоносного кода.

А также – как инструмент анализа защищенности (проведения атак на инфраструктуру, например, AI Red Teaming) или агентов, которые используются для защиты и не только, с целью выявить уязвимости, угрозы и риски кибербезопасности до того, как этим могут воспользоваться злоумышленники и нарушить бизнес-процессы, системы и в целом – инфраструктуру организации.

Анализ защищенности инфраструктуры

На рынке существуют инструменты для анализа защищенности. Развитие этого направления происходит стремительно. Как было указано выше, такие инструменты используются как минимум для определения уязвимостей инфраструктуры с целью последующего выстраивания обороны (защита систем, сетей и обрабатываемой в них чувствительной информации). Также, к сожалению, эти же инструменты используют в злонамеренных целях – для проведения атак на организации и их инфраструктуру.

Рассмотрим открытую ИИ-платформу HexStrike-AI (HexStrike), которая создана из лучших побуждений для наступательной безопасности (тестирование безопасности) и предназначена для усиления безопасности.

Состав HexStrike

В состав HexStrike входят следующие элементы:

· Сама платформа или фреймворк

· Специализированные агенты

· Инструменты безопасности

· Клиент и сервер (Model Context Protocol).

HexStrike представляет собой серверную платформу, которая включает более десятка агентов, решающих узкоспециализированные задачи, например:

· Intelligent Decision Engine – определяет подходящие инструменты для конкретной задачи.

· CVE-Intelligence Agent – управляет уязвимостями.

· Exploit Generator – формирует код для эксплуатации найденных уязвимостей.

· Агенты для анализа сетей, тестирования веб-приложений, бинарного анализа и других задач.

HexStrike интегрируется с более чем сотней инструментов безопасности, которые повседневно используют специалисты по кибербезопасности через Model Context Protocol – протокол прикладного уровня для взаимодействия языковых моделей (LLM) с внешними источниками данных и инструментами (MCP).

МСР сервер

HexStrike МСР сервер является ядром платформы, который:

· Принимает запросы от агентов по протоколу МСР

· Координирует выбор, запуск и результаты инструментов

· Управляет состоянием выполнения задач агентами и результатами.

Действия центрального компонента МСР сервера следующие:

· Анализ цели (целевой хост, веб-приложение и др.)

· Определяет оптимальный набор инструментов

· Конфигурирует параметры запуска (например, диапазон портов, глубину сканирования)

· Формирует стратегию тестирования (например, начиная с разведки, затем сканирование, далее эксплуатация).

Как это работает?

Пользователь формирует языковой запрос, например, «Найди уязвимости и проэксплуатируй их с указанием сетевого имени целевого хоста или IP-адреса».

МСР сервер и модуль принятия решения трансформируют пользовательский языковой запрос в структурированные вызовы инструментов безопасности. Далее все действия ИИ-платформы HexStrike проводятся в автоматическом режиме: агенты выполняют поставленные задачи, анализируют результаты, при необходимости корректируют стратегии и повторяют попытки для достижения поставленной цели.

Результаты работы HexStrike могут формироваться в виде структурированного отчета.

Цепочка атаки на ИИ

Рассмотрим один из вариантов цепочки атаки на ИИ – «отравление данных» в базе знаний, представленной на рисунке ниже.

Цепочка атаки на ИИ состоит из пяти этапов: разведка, отравление, захват, сохранение и воздействие — с ветвью смены ориентира. Ниже подробнее рассмотрим каждый этап цепочки атаки, как представлено на рис. 2.

Что происходит на этапе разведки в цепочке атаки на ИИ?

На этапе разведки злоумышленник составляет карту системы для планирования атаки. Ключевые вопросы, которые он задает себе на этом этапе:

· Какими путями контролируемые данные могут попасть в модель ИИ?

· Какие инструменты, серверы MCP или другие функции, которые могут быть использованы злоумышленниками, использует приложение?

· Какие библиотеки с открытым исходным кодом использует приложение?

· Где применяются системные ограничения и как они работают?

· Какие виды системной памяти использует приложение?

Разведка часто интерактивна. Злоумышленники исследуют систему, чтобы выявить ошибки и поведение пользователей. Чем больше им удастся изучить поведение системы, тем точнее будут их дальнейшие действия.

Приоритеты обороны для прерывания разведки:

· Контроль доступа: ограничьте доступ к системе для авторизованных пользователей.

· Минимизируйте информацию: удаляйте сообщения об ошибках, системные подсказки, раскрываемые сведения и идентификаторы компонентов из выходных данных.

· Мониторинг поведения при зондировании: внедрение телеметрии для обнаружения необычных входных данных или шаблонов доступа, указывающих на разведку.

· Укрепление моделей: тонкая настройка моделей для противодействия атакам по передаче данных и сбору конфиденциальной информации.

Раннее прерывание разведки не позволяет злоумышленникам получить знания, необходимые для проведения точных атак на более поздних этапах цепочки атаки.

Как злоумышленники отравляют системы ИИ на этом этапе?

На этапе отравления цель злоумышленника — разместить вредоносные входные данные в местах, где они в конечном итоге будут обработаны моделью ИИ. Доминируют два основных метода:

· Прямое внедрение подсказок: злоумышленник является пользователем и вводит данные посредством обычного взаимодействия с пользователем. Воздействие обычно ограничивается сеансом злоумышленника, но может быть полезно для проверки поведения.

· Косвенное внедрение подсказок: злоумышленник отравляет данные, которые приложение получает от имени других пользователей (например, базы данных RAG, общие документы). Именно здесь масштаб воздействия возрастает.

Наиболее распространённый метод заражения — заражение через текстовые сообщения. Однако существуют и другие, например:

· Отравление обучающих данных: внедрение испорченных данных в наборы данных, используемые для тонкой настройки или обучения моделей.

· Атаки с использованием состязательных примеров: манипуляция входными данными на уровне битов (изображения, аудио и т. д.) с целью принудительной неверной классификации.

· Визуальная полезная нагрузка: вредоносные символы, наклейки или скрытые данные, которые влияют на результаты модели в физическом контексте (например, автономные транспортные средства).

Приоритеты защиты от отравления:

· Очистите все данные: не думайте, что внутренние конвейеры безопасны, и применяйте защитные барьеры к пользовательскому вводу, источникам RAG, данным плагинов и каналам API.

· Перефразируйте входные данные: пересмотрите контент перед его приемом, чтобы помешать работе вредоносных программ, созданных злоумышленниками.

· Контролируйте прием данных: перед приемом данных очищайте все общедоступные источники данных.

· Мониторинг приема данных: отслеживайте неожиданные всплески данных, аномальные внедрения или высокочастотные вклады в конвейеры приема данных.

Как злоумышленники могут перехватить поведение модели ИИ после успешного отравления?

На этапе перехвата атака становится активной. Вредоносные входные данные, успешно помещенные на этапе отравления, поглощаются моделью ИИ, перехватывая ее выходные данные для достижения целей злоумышленника. Распространенные схемы перехвата включают:

· Использование инструментов, контролируемое злоумышленником: принуждение модели вызывать определенные инструменты с параметрами, определенными злоумышленником.

· Извлечение данных: кодирование конфиденциальных данных из контекста модели в выходные данные (например, URL-адреса, CSS, записи файлов).

· Генерацию дезинформации: создание ответов, которые заведомо ложны или вводят в заблуждение.

· Контекстно-зависимую полезную нагрузку: запуск вредоносного поведения только в целевом пользовательском контексте.

В агентских рабочих процессах перехват становится еще более мощным. Повышенная автономность, предоставляемая моделью, означает, что злоумышленники могут манипулировать целями модели, а не только ее выходными данными, заставляя ее автономно выполнять несанкционированные действия.

Приоритеты защиты для предотвращения захвата:

· Разделяйте доверенные и ненадежные данные: избегайте обработки контролируемых злоумышленником и конфиденциальных данных в одном и том же контексте модели.

· Повысьте надежность модели: используйте состязательное обучение, надежный RAG, методы иерархии инструкций, чтобы обучить модели противостоять шаблонам инъекций.

· Проверяйте вызовы инструментов с учетом контекста: гарантируйте, что каждый вызов инструмента соответствует исходному запросу пользователя.

· Реализуйте защитные барьеры выходного уровня: перед использованием проверьте выходные данные модели на предмет их предназначения, безопасности и влияния на них.

Перехват — это критический момент, в котором злоумышленник получает функциональный контроль. Разрыв цепочки в этом месте защищает нижестоящие системы, даже если отравление не было полностью предотвращено.

Каким образом злоумышленники сохраняют свое влияние в разных сеансах и системах?

Закрепление позволяет злоумышленникам превратить единичный взлом в постоянный контроль. Внедряя вредоносные данные в постоянное хранилище, злоумышленники обеспечивают сохранение своего влияния как в рамках пользовательских сеансов, так и между ними. Способы обеспечения устойчивости зависят от архитектуры приложения:

· Сохранение истории сеанса: во многих приложениях внедренные подсказки остаются активными в течение сеанса.

· Межсессионная память: в системах с пользовательской памятью злоумышленники могут внедрять полезную нагрузку, которая сохраняется между сеансами.

· Отравление общих ресурсов: злоумышленники нацеливаются на общие базы данных (например, источники RAG, базы знаний), чтобы повлиять на нескольких пользователей.

· Устойчивость плана агента: в автономных агентах злоумышленники перехватывают цели агента, обеспечивая непрерывное достижение определенных злоумышленником целей.

Закрепление позволяет злоумышленникам многократно эксплуатировать перехваченные состояния, увеличивая вероятность последующего воздействия. В агентских системах устойчивые полезные нагрузки могут трансформироваться в автономные рабочие процессы, контролируемые злоумышленниками.

Приоритеты защиты, препятствующие закреплению:

· Очистка перед сохранением: применение защитных барьеров ко всем данным перед отправкой в историю сеанса, память или общие ресурсы.

· Предоставьте пользователю возможность просматривать элементы управления памятью: позвольте пользователям просматривать, управлять и удалять свои сохраненные воспоминания.

· Контекстный вызов памяти: гарантируйте, что воспоминания извлекаются только тогда, когда они имеют отношение к текущему запросу пользователя.

· Обеспечьте прослеживаемость и возможность аудита данных: отслеживайте данные на протяжении всего их жизненного цикла, чтобы обеспечить быстрое исправление.

· Контроль операций записи: требуйте одобрения человека или более строгой очистки для любых записей данных, которые могут повлиять на состояние общей системы.

Закрепление позволяет злоумышленникам переходить от единичной атаки в определенный момент времени к постоянному присутствию в приложении на базе ИИ, что может повлиять на несколько сеансов.

Каким образом злоумышленники используют итерации или маневры, чтобы расширить свой контроль над агентскими системами?

Для простых приложений одиночный перехват может стать концом атаки. Но в агентных системах, где модели ИИ планируют, принимают решения и действуют автономно, злоумышленники используют цикл обратной связи: итерации и смена ориентира. Успешно перехватив поведение модели, злоумышленник может:

· Вернутся на 2-й шаг: отравление дополнительных источников данных с целью влияния на других пользователей или рабочие процессы, масштабирование устойчивости.

· Пересмотреть планы: в полностью агентских системах злоумышленники могут переписать цели агента, заменив их целями, определенными злоумышленником.

· Установить командование и управление (C2): внедрить данные, которые предписывают агенту извлекать новые директивы, контролируемые злоумышленником, на каждой итерации.

Этот цикл превращает единичную точку взлома в системную эксплуатацию. Каждая итерация усиливает позиции и влияние злоумышленника.

Защитные приоритеты для прерывания смены ориентира:

· Ограничьте доступ к инструментам: ограничьте набор инструментов, API или источников данных, с которыми агент может взаимодействовать, особенно в ненадежных контекстах.

· Непрерывно проверяйте планы агентов: внедряйте защитные меры, которые гарантируют, что действия агентов будут соответствовать первоначальному намерению пользователя.

· Постоянно отделяйте ненадежные данные: не допускайте влияния ненадежных входных данных на доверенные контексты или действия, даже между итерациями.

· Отслеживайте аномальное поведение агентов: выявляйте отклонения агентов от ожидаемых потоков задач, повышение привилегий или доступ к необычным ресурсам.

· Применяйте человеческий фактор в ключевых моментах: требуйте ручной проверки действий, которые изменяют область действия агента или доступ к ресурсам.

Смена ориентира — это метод, с помощью которого злоумышленники воздействуют на компоненты в агентских системах. Разрыв этого цикла крайне важен для предотвращения перерастания небольших взломов в масштабные атаки.

Какого рода воздействия достигают злоумышленники с помощью взломанных систем ИИ?

Воздействие — это процесс, в ходе которого цели злоумышленника материализуются путем принудительного использования результатов взломанной модели для запуска действий, которые влияют на системы, данные или пользователей за пределами самой модели.

В приложениях на базе ИИ воздействие происходит, когда выходные данные подключаются к инструментам, API или рабочим процессам, которые выполняют действия в реальном мире:

· Действия по изменению состояния: изменение файлов, баз данных или конфигураций системы.

· Финансовые транзакции: утверждение платежей, инициирование переводов или изменение финансовых записей.

· Кража данных: кодирование конфиденциальных данных в выходные данные, которые покидают систему (например, с помощью URL-адресов или вызовов API).

· Внешние коммуникации: отправка электронных писем, сообщений или команд от имени доверенных пользователей.

Сама модель ИИ зачастую не может оказывать влияние, в отличие от ее результатов. Безопасность должна выходить за рамки модели, чтобы контролировать использование результатов на последующих этапах.

Приоритеты защиты для отражения нападения:

· Классифицируйте действия, связанные с конфиденциальностью, определите, какие вызовы инструментов, API или действия могут изменить внешнее состояние или раскрыть данные.

· Ограничьте действия, связанные с конфиденциальностью, применяйте утверждения со стороны человека или автоматизированные проверки политик перед выполнением.

· Проектирование с принципом минимальных привилегий, инструменты должны иметь узкую область применения, чтобы свести к минимуму злоупотребления, избегайте многофункциональных API, расширяющих поверхность атаки.

· Используйте очистку выходных данных, удаление данных, которые могут вызвать непреднамеренные действия (например, скрипты, пути к файлам, ненадежные URL-адреса).

· Используйте политики безопасности контента, предотвращайте методы эксфильтрации на уровне интерфейса, такие как загрузка вредоносных URL-адресов или атаки на встроенные CSS.

Надежный последующий контроль за вызовом инструментов и потоками данных часто может сдержать действия злоумышленников.

Интеграции средств защиты с агентами

Интеграция SIEM, SOAR и агентов создает автоматизированную, предиктивную и адаптивную систему защиты, которая может использоваться на следующих уровнях:

· Сбор и корреляция событий, включая определение и отсечение ложноположительных срабатываний (например, Security Vision SIEM и агент).

· Анализ, прогноз и рекомендации (агенты).

· Автоматическое и автоматизированное реагирование (SOAR).

Такой подход обеспечивает раннее обнаружение, ускоренное реагирование и минимизацию ущерба.

Сбор и корреляция событий

SIEM выполняет свои базовые функции: корреляцию, нормализацию событий и классифицирует по приоритетам, а агент изначально используется для обучения, что является ложноположительным срабатыванием (FP) с учителем (т.е. эксперт по кибербезопасности явно указывает агенту на FP) со временем агент будет понимать что есть FP и соответственно снимать нагрузку с экспертов (автоматически закрывать явные FP). Далее события идут на вход агентам для глубокого анализа.

Анализ, прогноз и рекомендации

Агенты получают поток событий из SIEM и выполняют:

Аномальный анализ поведения (в том числе получение информации, например, Security Vision UEBA)

· Выявление необычной активности пользователей, устройств, процессов.

· Прогноз возможных угроз на основе исторических данных и паттернов атак.

Корреляция и обогащение данными

· Объединение событий с разных источников: сетевых, приложений, облаков и т.д.

· Идентификация сложных цепочек атак (Advanced Persistent Threat).

Оценка риска и приоритезация

· Присваивание уровня риска событиям и инцидентам.

· Определение, какие инциденты требуют немедленного вмешательства.

Формирование рекомендаций

· Предложения для безопасного реагирования (например, блокировка пользователей, изоляция устройств, проверка подозрительных IP и т.д.).

· Обеспечение объяснимых решений для аудита и отчётности.

Автоматическое и автоматизированное реагирование

SOAR принимает рекомендации агентов и выполняет заранее утверждённые безопасные действия:

Автоматические меры по инциденту:

· Изоляция скомпрометированных хостов.

· Временная блокировка подозрительных аккаунтов.

· Принудительный сброс пароля.

· Уведомления Security Operations Center (SOC).

Автоматизация рутинных действий:

· Агрегирование и классификация новых событий.

· Запуск проверок и сканирований только безопасным способом.

· Интеграция с внешними и внутренними базами угроз (например, Security Vision TIP).

Обеспечение согласованности и контроля:

· Действия строго в пределах политики безопасности.

· Каждая операция фиксируется для аудита.

Например, Security Vision SOAR с использованием моделей машинного обучения обеспечивает:

· Оценку FP – модель обучена на данных по закрытым инцидентам, при наступлении инцидента производится оценка схожести с ранее закрытыми FP в процентном соответствии.

· Оценку критичности инцидента – модель формирует оценку критичности исходя из: количества затронутых хостов, в том числе их критичности; используемых учетных записей; бюллетеней безопасности, сокращая время реагирования с часов до минут.

· Оценку схожести инцидентов – модель анализирует контекст инцидента, подсвечивает схожие раннее отработанные инциденты и те действия которые были выполнены в процессе реагирования на них.

· Рекомендациями по базе знаний – модель подсвечивает какие действия может произвести специалист по информационной безопасности на конкретных фазах реагирования.

Цикл обратной связи

1. Результаты реагирования фиксируются в SIEM и передаются агентам.

2. Агенты обновляют модели аномалий, учитывают новые паттерны атак.

3. SOC получает обновленные рекомендации и улучшенные отчеты.

Эффект: система становится адаптивной, с каждым инцидентом повышая точность обнаружения и эффективность реакции.

И в заключение

Количество атак и их интенсивность со временем будет только расти, в том числе за счет использования ИИ (инструменты и средства на базе ИИ), и они не будут зависеть от времени, праздников и выходных. Поэтому необходимо выстраивать более комплексную, многоуровневую защиту систем и сетей, как минимум проактивно моделировать угрозы безопасности информации (не только на бумаге), повышать уровень безопасности, а в случае атак или инцидентов, оперативно и эффективно реагировать на них. Все это ведет к созданию автономных систем безопасности, но конечно же, не без участия человека.

ИИ против ИИ (нападение и защита от киберугроз)

Публикации

Информация