Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном времени. Это активно использует не только бизнес, но и злоумышленники.
По данным различных аналитических центров, количество инцидентов, связанных с атаками на ИИ, выросло в несколько раз за последние два года. Мы стоим на пороге новой гонки вооружений, где щитом и мечом выступают алгоритмы машинного обучения.
Если проанализировать MITRE ATT&CK, то потенциал использования ИИ распространялся уже на более чем 25 % техник, которые используют хакеры. AI‑генерируемые вредоносные программы могут обходить современные средства защиты, они способны ускоренно сканировать инфраструктуру и проводить сложные атаки на системы, существенно расширяя саму поверхность атаки. Например, автоматические сканирования инфраструктуры сейчас уже достигают десятки тысяч попыток в секунду. Традиционные методы киберзащиты, такие как сигнатурные антивирусы и стандартные межсетевые экраны (WAF), оказались бессильны против таких атак. Также они не способны распознать атаки на ИИ-модели.
Прежде чем строить оборону, необходимо понять, откуда исходит угроза. Здесь на помощь приходит фреймворк MITRE Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS™). В отличие от своего «старшего брата» MITRE ATT&CK, ATLAS фокусируется на специфических для машинного обучения (ML) тактиках и техниках атак.
Моделирование угроз с помощью MITRE ATLAS
MITRE ATLAS разработанный для оценки угроз, специфичных для ИИ-систем. На момент публикации статьи включает более 170 техник атак, нацеленных на ИИ и ML-системы. За 3 месяца рост почти в 2 раза (с 84 до 170). Структура ATLAS включает тактики, которые охватывают весь жизненный цикл атаки: от разведки (Reconnaissance) до воздействия (Impact).
Ключевые тактики, критически важные для понимания:
· Initial Access (AML.TA0004): тактика, направленная на получение первоначального доступа к ML-системе или LLM-приложению. Включает техники, использующие уязвимости в обработке естественного языка и взаимодействии с пользователем, а также связанные с некорректной обработкой входных данных для выполнения несанкционированных инструкций. Среди наиболее распространённых и опасных техник LLM Prompt Injection (AML.T0051) и Phishing (AML.T0052).
· Execution (AML.TA0005): запуск вредоносного кода или манипуляция моделью. Сюда входят такие техники, как Prompt Injection (AML.T0051) и компрометация плагинов (LLM Plugin Compromise, AML.T0053).
· ML Attack Staging (AML.TA0001): подготовка к атаке, например, разведка модели (Discover AI Model Family, AML.T0014 / AML.T0013), создание состязательных примеров (AML.T0043) или отравление контекста.
Практическое применение ATLAS для моделирования угроз заключается в систематическом прохождении по тактикам и техникам, чтобы понять, как атакующий может скомпрометировать каждый элемент системы.
SAFE-AI – это фреймворк MITRE по безопасности ИИ-систем, он напрямую дополняет ATLAS и помогает системно защищать ИИ.
SAFE-AI вводит понятие четырех системных элементов (System Elements), на которых фокусируется защита:
AI Среда (Environment): инфраструктура, сеть, хранилища.
AI Платформа (AI Platform): программное обеспечение, библиотеки, инструменты.
AI Модель (AI Model): сама обученная модель и ее алгоритмы.
AI Данные (AI Data): данные для обучения, валидации и эксплуатации.
Такой подход позволяет комплексно анализировать риски на всём жизненном цикле ИИ-систем – от разработки и обучения моделей до эксплуатации и мониторинга.
Например, тактика Poison Training Data (AML.T0020) относится в первую очередь к элементу «AI Данные», но может быть реализована через уязвимости в «Среде». Понимание этих связей позволяет проактивно выстраивать эшелонированную защиту.
Нередко ИИ-моделям предоставляют доступ к использованию корпоративных и персональных данных сотрудников и клиентов для ускорения обработки типовых запросов и аналитики. Это может являться потенциальным риском утечки конфиденциальных и персональных данных, что ведет к нарушению требований Федерального Закона №152 «О персональных данных».
Важно понимать, какие именно техники MITRE ATLAS могут быть использованы злоумышленниками для атак, связанных с получением или манипулированием корпоративными и персональными данными, чтобы выстроить правильную линию защиты.
Обзор тактик и техник MITRE ATLAS, а также механизмов противодействия.
Тактика | Техника | Описание техники | Рекомендации по предотвращению атаки |
AML.TA0002 Reconnaissance (разведка) | AML.T0001 Discover ML Artifacts | противники ищут общедоступные репозитории, документацию и API для понимания архитектуры моделей и данных обучения | · внедрите политики минимального раскрытия информации о моделях (SAFE-AI: Environment + AI Data) · проводите мониторинг зондирования API, архитектуры модели и аномальных запросов к инфраструктуре (SIEM) · ограничьте публичный доступ к репозиториям и документации · проводите сканирование ML Red Teaming модели и публичных артефактов |
AML.TA0002 Reconnaissance (разведка) | AML.T0002 Search for Victim's Publicly Available Research Materials | поиск публичных исследовательских материалов жертвы (статьи, препринты) для понимания архитектуры модели и наборов данных | · ограничьте раскрытие чувствительной информации о функциях модели в публичных документах и статьях |
AML.TA0002 Reconnaissance (разведка) | AML.T0006 Active Scanning | активное сканирование инфраструктуры или приложений ИИ для обнаружения уязвимостей | · используйте WAF, системы обнаружения вторжений (IDS/IPS) и защиту от DDoS · настройте ограничение частоты запросов (rate limiting) · проводите сканирование ML Red Teaming используемых ИИ-моделей для выявления уязвимостей |
AML.TA0012 ML Model Access (доступ к модели) | AML.T0040 AI Model Inference API Access | получение доступа к интерфейсам предсказания (инференса) моделей для анализа их поведения, структуры и разведки | · используйте строгую аутентификацию (OAuth2, API-ключи), ограничение по ролям (RBAC), шифрование трафика и мониторинг аномалий вызова · внедрите AI Firewall (SAFE-AI: AI Platform/Tools) |
AML.TA0003 Resource Development (Supply Chain) | AML.T0010 ML Supply Chain Compromise | компрометация цепочки поставок ИИ, включая сторонние библиотеки, предобученные модели и данные | ·внедрите проверку SBOM/AIBOM, верификацию цифровых подписей · проводите контроль целостности сторонних компонентов |
AML.TA0002 Resource Development (доступ к модели) | AML.T0018 Backdoor ML Model | внедрение бэкдора в модель машинного обучения, который активируется определенным триггером | · используйте статический и динамический анализ моделей · проводите аудит трансферного обучения · внедрите мониторинг выхода модели на скрытые триггеры |
AML.TA0001 ML Attack Staging | AML.T0020 Poison Training Data | умышленное введение манипулированных или смещенных данных в обучающую выборку для создания бэкдоров или влияния на поведение | внедрите валидацию входных данных (SAFE-AI: AI Data), мониторинг происхождения (provenance), дифференциальную приватность и аудит на смещения |
AML.TA0004 / AML.TA0005 Initial Access | AML.T0051 LLM Prompt Injection | манипулирование поведением LLM через специально подготовленные промпты для обхода инструкций или извлечения данных. | · примените иерархию системных промптов, фильтры ввода (Guardrails), ограничение прав плагинов (SAFE-AI: AI Platform/Tools) · встройте AI Firewall в ETL-пайплайны для блокировки инъекций |
AML.TA0005 Execution | AML.T0054 LLM Jailbreak | обход ограничений безопасности и этических фильтров LLM для получения запрещенного контента | · осуществляйте контроль доступа, мониторинг аномалий вывода, надежные фильтры контента (Guardrails) · проводите аудит логов вывода LLM и регулярный jailbreak-тестинг |
AML.TA0006 Persistence (закрепление) | AML.T0054 Modify AI Agent Configuration | изменение настроек автономного ИИ-агента для поддержания постоянного доступа | · внедрите контроль целостности конфигураций, принцип наименьших привилегий и версионирование изменений · проводите автоматический аудит изменений (SAFE-AI: AI Platform/Tools) |
AML.TA0007 Defense Evasion (обход защиты) | AML.T0015 Evade ML Model | создание входных данных, которые заставляют ИИ-модель ошибаться или пропускать вредоносную информацию | примените валидацию данных (SI-10), обновляйте параметры модели, используйте адверсариальное обучение |
AML.TA0008 Defense Evasion (обход защиты) | System Prompt Leakage | раскрытие внутренних инструкций (системного промпта), что помогает злоумышленникам обходить ограничения | · используйте внешние Guardrails вместо правил в промпте, рандомизируйте промпты, маскируйте вывод · запретите прямой вывод системных инструкций |
AML.TA0010 Exfiltration | AML.T0057 LLM Data Leakage | утечка или раскрытие конфиденциальной информации (ПДн, пароли) через ответы модели или логи | · внедрите AI Firewall, который позволяет маскировать данные и осуществлять контекстную фильтрацию вывода (SAFE-AI: AI Data) · используйте дифференциальную приватность |
AML.TA0005 Execution | Excessive Agency (чрезмерная агентность) | предоставление ИИ-агентам избыточных прав доступа, позволяющих им выполнять опасные действия в сторонних системах | · примените принцип наименьших привилегий, Human-in-the-Loop, ограничение функций API · проведите аудит всех агентов на избыточные права · создайте матрицу разрешений (SAFE-AI: Environment + AI Platform) |
AML.TA0011 Impact | AML.T0029 / AML.T0031 Denial of ML Service | нарушение доступности ИИ-сервисов путем перегрузки вычислительных ресурсов или исчерпания квот | используйте rate limiting, защиту от DoS (SC-05), мониторинг sponge-примеров |
Выбор этих тактик и техник из матрицы MITRE ATLAS обусловлен спецификой атак, когда злоумышленник стремится не просто украсть данные, а скомпрометировать модель, чтобы манипулировать её решениями (например, одобрять мошеннические кредиты).
Эти техники покрывают всю цепочку атаки «от разведки до воздействия», а AI/LLM Firewall вместе с «классическими» средствами защиты блокируют действия злоумышленников, не давая атаке перейти к следующей тактике.
При этом критически важно внедрить непрерывный аудит инцидентов и логов взаимодействия с ИИ-моделями, строгий контроль доступов и минимальных привилегий, а также регулярное тестирование на проникновение (pentest) и сканирование моделей специальным сканером ML Red Teaming, чтобы своевременно выявлять и устранять уязвимости до того, как они будут использованы злоумышленниками.
Для защиты AI Среды (Environment) рекомендуем регулярно проводить аудит сетевых сегментов и прав доступа к хранилищам данных, внедрять контроль целостности конфигураций, использовать IDS/IPS и мониторинг аномалий для выявления подозрительной активности, а также применять принцип Zero Trust для сегментации среды, ограничения привилегий и непрерывной верификации доступа. Особое внимание уделяйте защите от разведки и компрометации инфраструктуры.
Для защиты AI Платформы (AI Platform) следует обеспечивать регулярное обновление всех библиотек и инструментов с проверкой на уязвимости, ограничивать установку и запуск внешних пакетов только доверенными источниками, внедрять управление изменениями для платформы, включая CI/CD пайплайны, а также использовать средства аудита, логирования и SIEM-мониторинга для всех операций с AI платформой.
Для защиты AI Моделей (AI Model) рекомендуется внедрять AI/LLM Firewall для защиты от джейлбрейков и инъекций промптов, осуществлять контроль версий моделей и проверку их целостности, использовать тестирование на устойчивость к атакам и аномалиям, а также ограничивать доступ к моделям через механизмы аутентификации и авторизации.
Для защиты AI Данных (AI Data) важно с помощью AI/LLM Firewall применять методы анонимизации и маскирования для чувствительных данных, контролировать источники данных и проверять их на целостность и корректность, а также организовать мониторинг на предмет отравления данных и аномальных паттернов в обучающих наборах.
Новый рубеж обороны – AI Firewall
LLM/AI Firewall – это специализированный слой защиты, работающий на уровне приложения и анализирующий трафик между пользователем и ИИ-моделью. Его задача не просто блокировать IP-адреса, а понимать семантику запросов (промптов) и ответов.
Технически LLM/AI Firewall встраивается в контур обработки запроса. Он проверяет входящий промпт на соответствие политикам безопасности и известным атакам. При обнаружении угрозы запрос может быть заблокирован, изменен (санитизирован) или отправлен на дополнительную проверку человеку. Аналогично проверяется и исходящий ответ модели, чтобы предотвратить утечку данных, которую злоумышленник мог вызвать косвенной инъекцией (Indirect Prompt Injection).

Но AI/LLM Firewall это не только про защиту данных, он способен обнаруживать попытки злоумышленника извлечь скрытую информацию о внутренних политиках, настройках или конфигурациях системы, которые могут быть использованы для взлома всей инфраструктуры.
Пример такой атаки: злоумышленник через сложный промпт заставляет LLM раскрыть скрытые системные инструкции или правила (System Prompt Leakage). Например, формирует многошаговый сценарий, в котором маскируются запросы на получение информации о настройках фильтров, ограничениях доступа или внутренней логике обработки данных. Цель: получить доступ к внутренним политикам и конфигурациям модели для обхода ограничений, дальнейшей подготовки атак или кражи данных.
Метод защиты: INFERA AI.Firewall анализирует семантику запроса, выявляет подозрительные формулировки и блокирует или перенаправляет промпт на проверку оператором.

Сегодня важно защищать не только прямые взаимодействия пользователей с LLM, но и действия автономных ИИ-агентов, которые стали полноценными цифровыми сущностями и активно используются в корпоративной среде. Автономные ИИ-агенты уже не просто генерируют текст, они планируют действия, вызывают различные инструменты, взаимодействуют с внутренними базами данных, API, RAG-системами и другими агентами.
AI/LLM Firewall контролирует агентов непосредственно через API. Каждый tool call, инициированный агентом, перехватывается на уровне API-интерфейса. Система проверяет соответствие вызова исходному намерению пользователя, корпоративным политикам, анализирует контекст всей цепочки действий. ИБ должны иметь полную видимость: что агент делал, почему принял такое решение, какие данные использовал, к каким системам обращался. Такая наблюдаемость превращает агента из «чёрного ящика» в полностью прозрачную и контролируемую сущность.
Безопасность ИИ требует комплексного подхода, который включает внедрение новых средств защиты, таких как AI/LLM Firewall, аудит и настройку правил и прав доступа, контроль целостности и версий моделей, регулярное тестирование на проникновение и мониторинг аномалий, а также обучение сотрудников и внедрение политик минимального раскрытия информации и принципа наименьших привилегий. Только такой системный подход позволяет эффективно предотвращать атаки и защищать инфраструктуру, данные, модели и платформы AI.
