Обнаружение уязвимостей агентов ИИ. Часть III: Утечка данных / Хабр

В третьей части серии демонстрируется, как риск усиливается в мультимодальных AI-агентах, когда скрытые инструкции, встроенные в безобидно выглядящие изображения или документы, могут инициировать утечку конфиденциальных данных без какого-либо взаимодействия с пользователем.

Основные выводы

Косвенная инъекция подсказок использует внешние источники — веб-страницы, изображения и документы — для скрытой манипуляции AI-агентами.
Мультимодальные AI-агенты, способные обрабатывать несколько типов ввода (текст, изображения и пр.), становятся особенно уязвимыми к атакам через подсказки, спрятанным в контенте. Эти уязвимости могут привести к утечке конфиденциальных данных без участия пользователя.
Доказательный прототип Pandora демонстрирует, как продвинутые AI-системы могут обрабатывать встроенные вредоносные полезные нагрузки (например, в документах MS Word) и исполнять опасный код — что подчёркивает необходимость мер защиты на уровне сервиса.
Организациям важно внедрять строгие протоколы безопасности, включая контроль доступа, продвинутую фильтрацию и системы мониторинга в реальном времени, чтобы минимизировать риски утечки данных и несанкционированных действий в AI-системах.

По мере интеграции AI в повседневную жизнь косвенная инъекция подсказок становится серьёзной угрозой. В отличие от прямых атак, такие инъекции часто исходят из безобидно выглядящих внешних источников — веб-страниц или загруженных документов — и способны заставить AI-агентов выполнить вредоносные или непреднамеренные действия.

Эта уязвимость коренится в ограничении крупных языковых моделей: они не различают настоящий пользовательский ввод и внедрённые злонамеренные подсказки. В результате LLM и AI-агенты на их основе особенно подвержены атакам через косвенные инъекции подсказок.

В этом материале мы показали, как риск усиливается в мультимодальных AI-агентах, когда скрытые инструкции в безобидно выглядящих изображениях или документах могут запустить утечку конфиденциальных данных без какого-либо взаимодействия пользователя. Это подчёркивает насущную необходимость защитных механизмов на уровне агентов и проактивных стратегий безопасности против скрытых атак через подсказки в контенте.

Исследование предлагает всесторонний анализ этих вопросов и их более широких последствий.

Часть I. Обнаружение уязвимостей агентов ИИ: ключевые риски безопасности в AI-агентах, такие как инъекция подсказок и несанкционированное исполнение кода.

Часть II. Уязвимости исполнения кода: как злоумышленники могут использовать слабые места сервисов на базе LLM для несанкционированного выполнения кода, обхода ограничений песочницы и эксплуатации ошибок обработки исключений, что приводит к утечкам данных, неавторизованным передачам и персистентному доступу в среде выполнения.

Часть IV. Уязвимости доступа к базам данных: как злоумышленники эксплуатируют интеграцию LLM с системами управления базами данных через SQL-инъекции, stored prompt injection и отравление векторных хранилищ для извлечения защищённых данных и обхода механизмов аутентификации. Атакующие могут манипулировать запросами, влияя на результаты, получать конфиденциальную информацию или внедрять персистентные эксплойты, воздействующие на будущие запросы.

Использование веб-страниц, изображений и документов для косвенной инъекции подсказок

Косвенная инъекция подсказок — скрытый метод атаки, при котором вредоносные инструкции прячутся во внешних данных (веб-контенте, изображениях или документах) для манипуляции поведением AI без ведома пользователя. Такие атаки обычно делятся на три категории: веб-атаки, атаки по изображению и атаки по документам.

Веб-атаки

AI-агенты, парсящие веб-сайты, могут интерпретировать встроенные вредоносные подсказки (например, отправку данных из памяти на электронную почту злоумышленника). Если сервис разрешает исходящий трафик и работу с электронной почтой, конфиденциальная информация — ключи API, контактные данные и др. — может оказаться в руках мошенников.

Атаки через изображения (Zero-click)

Мультимодальные модели, такие как GPT-4o, способны извлекать скрытый текст из изображений, даже если они кажутся пустыми. При загрузке такого изображения модель может выполнить вредоносные инструкции без какого-либо взаимодействия с пользователем, что представляет серьёзный риск безопасности.

Рисунок 1. Внедрённая подсказка на первый взгляд в пустом изображении (сверху), но скрытый текст присутствует (снизу).

Атаки через документы

ChatGPT поддерживает загрузку документов и способен извлекать скрытый текст из приложений, таких как Microsoft Word. Модель даже может читать и обрабатывать текст, помеченный как «скрытый» с помощью форматирования (например, CTRL+SHIFT+H), что позволяет осуществлять скрытую инъекцию подсказок.

Эти сценарии подчёркивают важность внедрения строгого контроля доступа, мониторинга и валидации подсказок, чтобы предотвратить утечку данных через косвенную инъекцию.

Что под угрозой?
Конфиденциальная информация, хранящаяся в сервисах на базе LLM, представляет собой ценную цель для злоумышленников. Сюда относятся данные из пользовательских переписок, загруженные документы и информация, сохранённая в долговременной памяти системы. К распространённым типам данных, становящимся объектом атак, относятся:

Персональные данные: имена, адреса электронной почты, номера телефонов, номера социального страхования
Финансовая информация: банковские реквизиты, номера кредитных карт
Медицинские записи: защищённая медицинская информация (PHI)
Коммерческие тайны: ноу-хау, стратегические планы, финансовые отчёты
Учётные данные: API-ключи, токены доступа, пароли
Загруженные файлы: конфиденциальные деловые документы, государственные отчёты, собственные исследования

ChatGPT Data Analyst
Специально подготовленные документы со скрытыми инструкциями представляют серьёзную угрозу для AI-агентов и инструментов с возможностью исполнения кода, таких как функция Data Analyst в ChatGPT. При загрузке такого файла сервис может воспринять встроенные полезные нагрузки как легитимные подсказки и невольно выполнить их. Это может привести к непреднамеренному запуску скриптов и предоставить злоумышленникам несанкционированный доступ к пользовательским данным, которые затем могут быть закодированы и переданы во внешние хранилища.

Например, документ Microsoft Word с встроенным вредоносным кодом может заставить ChatGPT выполнить код и извлечь содержимое файла. Такое исполнение стало возможным потому, что функция запуска кода была вручную включена в настройках системы. В обычных условиях эта возможность по умолчанию отключена, чтобы минимизировать риски.

Хотя AI-агенты обычно внедряют средства защиты — блокировку доступа к динамически генерируемым URL через системы обнаружения злоупотреблений и фильтры на основе правил — эти меры можно обойти. Злоумышленники могут использовать известные или скомпрометированные домены, которые хранятся вне стандартных черных списков, что позволяет вредоносным нагрузкам устанавливать внешние соединения и выкачивать данные.

Возможность злоумышленников эксплуатировать скомпрометированные популярные домены для обхода существующих ограничений вызывает серьёзные опасения по поводу безопасности данных. При отсутствии эффективных защит на уровне сервиса атакующие могут успешно применить косвенную инъекцию подсказок для скрытой утечки конфиденциальной информации без обнаружения.

Рисунок 2. Пример подсказки для утечки данных.

Рисунок 3. ChatGPT выполняет инструкции, встроенные в полезную нагрузку специально подготовленного документа MS Word.

Pandora
Pandora — это доказательство концепции (PoC) AI-агент, созданный командой Forward-looking Threat Research (FTR) компании Trend Micro для изучения новых рисков безопасности, связанных с продвинутыми AI-системами. Он обладает возможностями неограниченного исполнения кода и доступа в интернет, всё это — в Docker-песочнице. Эти функции позволяют динамически запускать код и взаимодействовать с внешними URL.

В одном из наших тестовых сценариев Pandora инициировал событие MULTIMODAL_CONTEXT при загрузке вредоносного документа Word под названием CV – Actor.docx. Это событие имитировало, как системы ИИ, подобные ChatGPT, обрабатывают загруженные файлы: извлекают их содержимое и формируют контекстно-зависимую подсказку.

Документ содержал встроенную Python-полезную нагрузку, которая была извлечена и отображена, что свидетельствует о том, что система распознала и обработала эти инструкции как часть своей рабочей логики.

Рисунок 4. Событие MULTIMODAL_CONTEXT (текст в красной рамке — содержимое, извлечённое из загруженного файла) — Рисунок 4. Событие `MULTIMODAL_CONTEXT` (текст в красной рамке — содержимое, извлечённое из загруженного файла)

После активации вредоносной полезной нагрузки специально подготовленным запросом пользователя встроенный Python-код выполнился в окружении Pandora. В результате конфиденциальные данные были переданы на сервер управления и управления (C&C).

Взаимодействие завершилось сообщением Pandora «Task complete» — выводом, заданным внедрённым кодом. Этот инцидент подчёркивает важный вывод: даже при использовании надёжной базовой модели, такой как GPT-4o, уязвимости всё равно могут возникнуть при от��утствии сервисных защит. Pandora наглядно демонстрирует необходимость комплексных ограничений сверху, выходящих за рамки возможностей базовой модели.

Заключение
Хотя AI-агенты и LLM обладают огромным потенциалом, они также могут быть использованы злоумышленниками, если не обеспечена надёжная защита. Одной из самых актуальных проблем является косвенная инъекция подсказок, особенно в сочетании с мультимодальными возможностями, позволяющими вредоносному контенту обходить традиционные средства защиты.

Чтобы противостоять этим угрозам, организациям необходимо действовать проактивно, внедряя строгий контроль доступа, применяя продвинутую фильтрацию содержимого и развёртывая системы мониторинга в реальном времени. Эти меры критичны для снижения рисков утечки данных, несанкционированных действий и других форм эксплуатации возможностей ИИ.

По мере усложнения AI-систем должны совершенствоваться и меры безопасности. Обеспечение безопасного и ответственного развёртывания зависит не только от возможностей самих моделей, но и от прочности сервисных ограничений, регулирующих их использование.

Для противодействия угрозе косвенной инъекции подсказок необходим комплексный многоуровневый подход. Организациям рекомендуется рассмотреть следующие меры:

Внедрить сетевые ограничения, чтобы блокировать подключения к непроверенным или потенциально вредоносным URL.
Использовать сложные фильтры для анализа загружаемого контента на наличие скрытых команд.
Применять оптическое распознавание символов (OCR) и методы улучшения изображений для обнаружения скрытого текста в визуальном контенте.
Развернуть системы модерации и модели обнаружения угроз для нейтрализации встроенных попыток командования.
Очищать и предварительно обрабатывать пользовательский ввод, удаляя или изолируя потенциально опасный контент подсказок.
Вести журнал всех взаимодействий и активно мониторить необычное или подозрительное поведение языковой модели, которое может указывать на попытки эксплуатации.

Обнаружение уязвимостей агентов ИИ. Часть III: Утечка данных

Публикации

Ближайшие события