nizamovtimur 29 июл в 07:01

Как разрабатывать AI-агенты безопасными — свежие рекомендации OWASP

Средний

3 мин

1.2K

Блог компании RaftБлог компании OWASPИскусственный интеллектИнформационная безопасность *

Обзор

28 июля фонд OWASP выпустил руководство по защите агентных приложений. Работа над ним шла несколько месяцев, большую часть времени заняло рецензирование от специалистов из ведущих организаций: Microsoft, Oracle, NIST, Еврокомиссии, Robust Intelligence, Protect AI и других.

В документе рассматриваются архитектурные шаблоны: от RAG до агентов различной степени автономности. Под агентами подразумеваются приложения, в которых модели искусственного интеллекта играют не только утилитарную, но и управляющую роль, взаимодействуя с некоторой средой.

Приводятся стратегии смягчения распространенных угроз, рекомендации на протяжении всего жизненного цикла разработки (от проектирования до эксплуатации) для ключевых компонентов агентов: языковых моделей, оркестрации, памяти, инструментов и сред. Также есть отсылки к отдельному гайду по тестированию безопасности OWASP AI Red Teaming Guide.

В документе описываются разные компоненты систем и ключевые рекомендации по ним, затем описываются возможные векторы атак и стратегии предотвращения. В основе каждого агента – модели ИИ: большие и маленькие, языковые и мультимодальные, предобученные и дообученные.

Иллюстрация на странице 21 — Иерархическая архитектура мультиагентной системы

Рассматриваются разные топологии мультиагентных систем. В зависимости от задачи строят рой агентов или иерархию согласно декомпозиции на подзадачи. Необходимо строго ограничивать права доступа агентов к API, выполнению кода, базам данных и тщательно контролировать их действия, чтобы предотвратить потенциальные атаки. При этом к рекомендациям из классической ИБ добавляются напоминания о проблеме галлюцинаций моделей. Не стоит слишком доверять вероятностным моделям, ведь ошибки в ответах одной модели в системе приводят к каскаду отклонений. Частично эта проблема решается с помощью ризонинга: планирование, цепочки и деревья рассуждений — хотя это всё те же токены из распределения. Про human in the loop — человеческую валидацию в процессе — тоже не стоит забывать.

При работе с памятью и внешними компонентами важно грамотно распределить ресурсы, разграничить уровни доступа. При обращении к API, базам данных и другим ресурсам агенты должны оперировать в рамках прав пользователя, который их вызвал, чтобы предотвратить несанкционированный доступ к данным. Авторы гайда также предлагают архитектурные решения. Кроме того, при взаимодействии агентов с браузерами или компьютерами следует избегать хранения учетных данных, используя аутентификацию вне процесса или доверенные менеджеры паролей. Отдельная глава посвящена редтимингу и поведенческому анализу моделей и системы в целом.

Что же делать?

Обозначать и актуализировать риски, строить модель угроз: отравление данных, состязательные атаки, кража моделей, утечка информации, DoS-атаки, злоупотребление автономией агента и т. д.
Постоянно модифицировать системные промпты, описывая допустимые и недопустимые сценарии, очищать входные данные от спецсимволов и возможных промпт-манипуляций в духе «Игнорируй предыдущие инструкции», разделять системные инструкции и пользовательские запросы.
Разграничивать уровни доступа агентов, использовать RBAC, доверенные хранилища секретов, не допускать попадания в контекст моделей ключей доступа и других чувствительных данных. При выполнении кода использовать изолированные среды.
Использовать системы детекции персональных данных и модерации контента на основе правил или нейросетей: от обычных классификаторов до LLM как судей. Отслеживать взаимодействие агентов между собой и пользователями. Не отбрасывать подход Human-in-the-loop.
Тестировать безопасность системы с помощью ручных и автоматических методов. Так как ответы моделей ИИ недетерминированы, тестировать необходимо репрезентативной выборкой запросов с большим количеством попыток. Инструменты тестирования должны соответствовать целям безопасности, охватывать актуальные угрозы и предлагать практические рекомендации.
Внедрять процесс мониторинга и тестирования в пайплайн CI/CD и адаптироваться к новым угрозам.
Взаимодействовать с сообществом, чтобы оставаться в курсе последних разработок в области безопасности ИИ.

В российском пространстве сообщество безопасности ИИ только формируется. Переходите в Telegram-канал AI Security Lab ИТМО, чтобы оставаться в курсе последних новостей и делиться своим мнением. Также приглашаю в наш чат GenAI Security LLAMATOR в Telegram.

Делитесь в комментариях, как вы подходите к защите и тестированию своих LLM-приложений?

Хабы:

Как разрабатывать AI-агенты безопасными — свежие рекомендации OWASP

Что же делать?

Публикации

Информация