Как стать автором
Поиск
Написать публикацию
Обновить
152.87
Raft
AI решения для бизнеса

Как разрабатывать AI-агенты безопасными — свежие рекомендации OWASP

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.2K

28 июля фонд OWASP выпустил руководство по защите агентных приложений. Работа над ним шла несколько месяцев, большую часть времени заняло рецензирование от специалистов из ведущих организаций: Microsoft, Oracle, NIST, Еврокомиссии, Robust Intelligence, Protect AI и других.

В документе рассматриваются архитектурные шаблоны: от RAG до агентов различной степени автономности. Под агентами подразумеваются приложения, в которых модели искусственного интеллекта играют не только утилитарную, но и управляющую роль, взаимодействуя с некоторой средой.

Приводятся стратегии смягчения распространенных угроз, рекомендации на протяжении всего жизненного цикла разработки (от проектирования до эксплуатации) для ключевых компонентов агентов: языковых моделей, оркестрации, памяти, инструментов и сред. Также есть отсылки к отдельному гайду по тестированию безопасности OWASP AI Red Teaming Guide.

В документе описываются разные компоненты систем и ключевые рекомендации по ним, затем описываются возможные векторы атак и стратегии предотвращения. В основе каждого агента – модели ИИ: большие и маленькие, языковые и мультимодальные, предобученные и дообученные.

Иллюстрация на странице 21 — Иерархическая архитектура мультиагентной системы
Иллюстрация на странице 21 — Иерархическая архитектура мультиагентной системы

Рассматриваются разные топологии мультиагентных систем. В зависимости от задачи строят рой агентов или иерархию согласно декомпозиции на подзадачи. Необходимо строго ограничивать права доступа агентов к API, выполнению кода, базам данных и тщательно контролировать их действия, чтобы предотвратить потенциальные атаки. При этом к рекомендациям из классической ИБ добавляются напоминания о проблеме галлюцинаций моделей. Не стоит слишком доверять вероятностным моделям, ведь ошибки в ответах одной модели в системе приводят к каскаду отклонений. Частично эта проблема решается с помощью ризонинга: планирование, цепочки и деревья рассуждений — хотя это всё те же токены из распределения. Про human in the loop — человеческую валидацию в процессе — тоже не стоит забывать.

При работе с памятью и внешними компонентами важно грамотно распределить ресурсы, разграничить уровни доступа. При обращении к API, базам данных и другим ресурсам агенты должны оперировать в рамках прав пользователя, который их вызвал, чтобы предотвратить несанкционированный доступ к данным. Авторы гайда также предлагают архитектурные решения. Кроме того, при взаимодействии агентов с браузерами или компьютерами следует избегать хранения учетных данных, используя аутентификацию вне процесса или доверенные менеджеры паролей. Отдельная глава посвящена редтимингу и поведенческому анализу моделей и системы в целом.

Что же делать?

  1. Обозначать и актуализировать риски, строить модель угроз: отравление данных, состязательные атаки, кража моделей, утечка информации, DoS-атаки, злоупотребление автономией агента и т. д.

  2. Постоянно модифицировать системные промпты, описывая допустимые и недопустимые сценарии, очищать входные данные от спецсимволов и возможных промпт-манипуляций в духе «Игнорируй предыдущие инструкции», разделять системные инструкции и пользовательские запросы.

  3. Разграничивать уровни доступа агентов, использовать RBAC, доверенные хранилища секретов, не допускать попадания в контекст моделей ключей доступа и других чувствительных данных. При выполнении кода использовать изолированные среды.

  4. Использовать системы детекции персональных данных и модерации контента на основе правил или нейросетей: от обычных классификаторов до LLM как судей. Отслеживать взаимодействие агентов между собой и пользователями. Не отбрасывать подход Human-in-the-loop.

  5. Тестировать безопасность системы с помощью ручных и автоматических методов. Так как ответы моделей ИИ недетерминированы, тестировать необходимо репрезентативной выборкой запросов с большим количеством попыток. Инструменты тестирования должны соответствовать целям безопасности, охватывать актуальные угрозы и предлагать практические рекомендации.

  6. Внедрять процесс мониторинга и тестирования в пайплайн CI/CD и адаптироваться к новым угрозам.

  7. Взаимодействовать с сообществом, чтобы оставаться в курсе последних разработок в области безопасности ИИ.

В российском пространстве сообщество безопасности ИИ только формируется. Переходите в Telegram-канал AI Security Lab ИТМО, чтобы оставаться в курсе последних новостей и делиться своим мнением. Также приглашаю в наш чат GenAI Security LLAMATOR в Telegram.

Делитесь в комментариях, как вы подходите к защите и тестированию своих LLM-приложений?

Теги:
Хабы:
+7
Комментарии2

Публикации

Информация

Сайт
ai.raftds.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия
Представитель
Евгений Кокуйкин