Microsoft опенсорснула RAMPART — фреймворк безопасности ИИ-агентов / Хабр

Microsoft выложила в открытый доступ два инструмента для разработчиков ИИ-агентов — RAMPART и Clarity. Первый встраивает тестирование безопасности прямо в CI-пайплайн, второй помогает продумать архитектуру до написания кода. Оба проекта доступны на GitHub.

RAMPART — это фреймворк для написания тестов безопасности в формате обычных pytest-сценариев. Он построен поверх PyRIT, открытой платформы Microsoft для проверки генеративных моделей. Логика простая: разработчик описывает сценарий угрозы из своей модели рисков, фреймворк подключается к агенту, прогоняет взаимодействие и выдает результат — пройдено или нет. Тесты встают в CI рядом с обычными интеграционными и блокируют сборку при провале. Добавил агенту новый инструмент или источник данных — добавь тест на безопасность в том же пулл-реквесте.

Главный фокус RAMPART сейчас — атаки через внедрение промптов (prompt injection), когда агент получает вредоносные инструкции не от пользователя, а из обрабатываемых данных: писем, тикетов, документов. Фреймворк умеет работать с вероятностной природой языковых моделей: один и тот же тест можно прогнать несколько раз и задать порог — например, "действие должно быть безопасным минимум в 80% запусков". Это ближе к реальному поведению агентов в продакшене, чем разовая проверка.

Clarity устроен иначе — это не про тестирование, а про проектирование. Инструмент работает как собеседник, который задает вопросы, которые обычно задают опытные архитекторы и специалисты по безопасности. Например, команда хочет добавить совместное редактирование в документ — Clarity спросит, что произойдет, если два человека одновременно редактируют один абзац. Результаты сохраняются в директории .clarity-protocol/ внутри репозитория как обычный markdown — их можно коммитить, ревьюить и диффить вместе с кодом. Несколько ИИ-"аналитиков" независимо проверяют систему с разных сторон: безопасность, человеческий фактор, операционные риски.

Microsoft позиционирует оба инструмента как часть подхода, в котором безопасность ИИ — это не разовый аудит, а непрерывная инженерная дисциплина. Clarity фиксирует решения и допущения на старте, RAMPART превращает результаты ред-тиминга и инциденты в регрессионные тесты, которые живут столько же, сколько сам проект.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.