Регуляторные документы РФ по безопасности ИИ — с чем мы вступаем в 2026 год / Хабр

Что было интересного в 2025 году по безопасности ИИ? Помимо развития решений по безопасности AI-агентов и их протоколов, в том числе гардрейлов, и также появления фреймворков, для российского рынка важно отметить появление нескольких новых официальных документов. О них и поговорим, так как я искренне считаю, что они выводят нашу нормативно-правовую базу на уровень одной из самых развитый и проработанных в мире. Но этот пост - не просто обзор)

Для кого: специалисты ИБ комплаенс, архитекторы, аудиторы, специалисты red team / pentest - все с уклоном в AI-решения, и собственно сами владельцы AI‑решений.
Что внутри: Указ №490, приказ ФСТЭК №117, Методика оценки защищенности ФСТЭК, раздел БДУ ФСТЭК по угрозам ИИ. И отдельно три зоны знаний, где практика еще не покрыта документами, и как ее можно покрыть.
Результат: что именно считать объектами защиты и какие артефакты готовить, чтобы защита была проверяемой, а также верхнеуровневые меры защиты.
Как читать: можно целиком, можно по разделам.

Существующие документы

Указ Президента №490

Вышедшие не в 2025, но в 2024, правки к Указу Президента №490 - основа российской нормативной базы. Даны термины касательно ИИ в целом, и в частности - есть несколько важных для ИБ пунктов.

Из важного для ИБ:

п.5 пп.«ц»: определены «доверенные технологии ИИ» - технологии, обеспечивающие безопасность, объективность/недискриминацию, этичность, исключение вреда и нарушения прав граждан и государства;
п.51: ИБ включено в направления развития разработки/внедрения/использования ИИ;
п.53: сказано о создании межведомственной координации по безопасности ИИ.

Практическая полезность Указа проявляется при согласовании решений по безопасности ИИ с большим количеством заинтересованных сторон в организации. Потому что фактор первостепенной важности при донесении любой позиции до нового для тебя собеседника - состыковаться с ним сначала по терминам. И да, скорее всего локально термины придется как-то переработать, Указ поможет хотя бы начать не с чистого листа.

Приказ №117 (ФСТЭК)

Главное регуляторное событие 2025 года в российском AI Security - вышел Приказ ФСТЭК №117 (от 11.04.2025, вступает в силу 01.03.2026). В нем затрагиваются базовые меры безопасности при использовании LLM.

Пункты, которые затрагивают безопасность ИИ:

В п.34(т) — выделено отдельное мероприятие «защита информации при использовании ИИ».
П.60 — раскрыто, что защищается в ИИ-контуре: наборы данных, модель, параметры, процессы/сервисы обработки данных и поиска решений; там же — запрет передавать разработчику модели ИИ информацию ограниченного доступа «для улучшения функционирования модели».
П.61 — контроль взаимодействия “запрос–ответ”:
а) при шаблонных запросах/ответах — определить шаблоны и контролировать соответствие;
б) при свободном тексте — определить допустимые тематики вопросов и ответов и контролировать их соблюдение;
в) разработать статистические критерии выявления недостоверных ответов, дать пользователю возможность их отмечать и организовать сбор/анализ;
г) обеспечить реагирование на недостоверные ответы (вплоть до ограничения области и функций, чтобы не принимать решения на их основе).
Далее (абз. после п.61): не допускается нерегламентированное влияние на параметры модели и функционирование ИС;
А напоследок сказано, что необходимо применять доверенные технологии ИИ или компоненты.

Что это означает? По сути, предъявлены требования к LLM-сервисам, и при чем важно понимать, что в отличие от своего предшественника, приказа №17, этот распространяется на все информационные системы государственных органов, унитарных предприятий и учреждений, а также муниципальные информационные системы, и их подрядные организации. Так что если ваш AI-ассистент будет предоставлять услуги государству, вы обязаны это выполнять. Что можно делать, что выполнять требования, подробнее я расписал в таблице.

Фрагмент Приказа №117	Что делать	Типовые артефакты выполнения
п.60 (объекты защиты)	описать границы AI‑контура и перечень активов	архитектурные схемы, перечень активов, владельцы активов
п.61(а) (шаблоны)	зафиксировать системный промпт/шаблоны, сделать механизм контроля расположения СП в дистрибутиве	перечень требований к формированию системного промпта (СП)
п.61(б) (тематики)	определить допустимые классы вопросов/ответов и политику отсечения	политика тем, правила фильтрации, т��ст‑корзины по темам
п.61(в) (критерии недостоверности)	ввести метрики/правила фиксации недостоверности + канал обратной связи	метрики/пороговые правила, UI‑функция для обратной связи, журнал инцидентов
п.61(г) (реагирование)	описать режимы реакции: ограничение области/функций, блокировка ответа или действий агента, вывод сервиса на процент потока или в теневой режим	система управления реагированием на инциденты GenAI регламент реагирования на такие инциденты (с плейбуками)
абзац после п.61 (нерегламентированное влияние)	явно описать и контролировать «кто может менять» параметры/конфиги/поведение	матрица изменений, разграничение прав, аудит изменений

Пример требований к системному промпту, кстати, я разбирал у себя в канале.

Методика оценки защищенности (ФСТЭК)

Намного менее громким событием стал выход еще одного документа - Методики оценки защищенности (ФСТЭК, 25.11.2025). Однако от малого внимания она отнюдь не становится менее важной. Более того, методика отлично дополняет 117 приказ, значительно раскрывая вопросы безопасности ИИ в рамках своей области действия.
В общих чертах, методика задает состав работ при анализе уязвимостей в рамках испытаний/аттестации и формализует состав проверок. И самое главное, что надо понимать - не все процедуры (с кодами) - это именно редтиминг. Здесь есть и аудиторская работа, и отдельные эксперименты в формате whitebox (по ИИ таких мер даже большинство).

Документ строится так, что описывает процесс анализа уязвимостей как последовательность этапов. Вот их перечень:

Сбор исходной информации (ИНП.9)
Тут фиксируется, что является моделью, где ее инференс, какие модальности, есть ли RAG, какие каналы формирования запросов и ответов.
Внешний анализ уязвимостей (МИИ.1.1, МИИ.1.3, МИИ.1.7, и, если есть внешние источники данных - МИИ.1.4 и МИИ.1.6)
То есть поиск уязвимостей в режиме черного ящика - по сути, классический AI Red Team. Моделирование внешнего нарушителя На выходе идут отчеты о тестировании, описания PoC'ов джейлбрейков, логи запросов и ответов,
Внутренний анализ уязвимостей (МИИ.1.2, МИИ.1.4, МИИ.1.5, МИИ.1.6, МИИ.1.8, МИИ.2.1, МИИ.2.2)
Здесь речь про моделирование нарушителя внутреннего, и подразумевается и подмена конфигов, и отравление данных обучения или БД RAG, или даже прямые модификации весов моделей.
Оценка выявленных уязвимостей
Формирование итоговых отчетов с распоряжениями/требованиями по устранению уязвимостей. По сути обеспечение управляемости результата: тут и оценка критичности, и описание условий эксплуатации, затрагиваемых активов, определение приоритетов исправлений, компенсирующих мер, и конечно же фиксация сроков и ответственных.

Сам документ состоит из множества таблиц, в которых описаны процедуры того или иного вида анализа уязвимостей.

Этап	Код меры по анализу	Что нужно определить / где искать уязвимость	Где искать (точка тестирования)	Типовой артефакт меры
Сбор исходной информации	ИНП.9	состав ПО, реализующего модели МЛ/ИИ	контур разработки/эксплуатации	инвентаризация компонентов, карта зависимостей (SBOM/AIBOM)
Внешний анализ уязвимостей	МИИ.1.1	искажение поведения через спецзапросы (промпты)	интерфейсы «запрос–ответ» агента или приложения	отчет о тестировании, журнал запросов/ответов, описание PoC, условия успеха
Внешний анализ уязвимостей	МИИ.1.3	утечка конфиденциальной информации через ответы	интерфейсы «запрос–ответ» агента или приложения и источник конф. инф.: данные обучения модели/системный промпт/RAG/ресурсные системы	аналогично МИИ.1.1 + связь с источником утечки
Внутренний анализ уязвимостей	МИИ.1.2	влияние модифицированных данных обучения, возможность отравить данные обучения/дообучения	инфраструктура обучения/дообучения	отчет об эксперименте: сценарий отравления, доказательства влияния
	МИИ.1.4	процедуры контроля/управление данными, используемыми моделью	RAG‑источники, контекст ‑ сборка	трассировка цепочки данных, права/роли
	МИИ.1.5	какие способы модификации обучающих данных реализуемы	хранилища датасетов/пайплайны обработки данных	раздел отчета в составе артефакта для меры МИИ 1.2 (журнал изменений данных, результаты контроль целостности)
	МИИ.1.6	механизмы управления доступом к модели	API, сервис инференса	матрица доступов, аудиты вызовов
	МИИ.1.7	слабые механизмы фильтрации входа/выхода	фильтры, гардрейлы, политика тем	раздел отчета в составе артефакта для меры МИИ 1.1
	МИИ.1.8	прочие уязвимости конфигурации модели	системный промпт, параметры, режимы	diff конфигурации, журнал изменений
	МИИ.2.1	уязвимости библиотек/фреймворков (supply chain)	контур разработки/инференса	перечень версий, результаты сканирования
	МИИ.2.2	уязвимости ПО модели МЛ	окружение исполнения	отчеты анализа, версии/патчи

Практическую полезность документа я оцениваю как высокую. На мой взгляд, это один из самых прикладных российских документов по безопасности ИИ.

Во-первых, он четко фиксирует, что промпт-атаки, утечки данных, отравление данных и слабые фильтры — это не случайные особенности поведения LLM, а результат действий нарушителя и, соответственно, моделируемый предмет анализа уязвимостей.
Во-вторых, он заставляет переводить разговор про безопасность ИИ в структуру аудита: какие работы выполнялись, какие следы/артефакты получены, что было выявлено и как оценено.

Слабое место тоже понятно: методика перечисляет меры, но не описывает детали проведения тестирования и конкретные методики для каждого пункта МИИ (какие джейлбрейки применять, как внедрять их). Но это и не должно тут быть, это уже вотчина стандартов, внутренних корпоративных методик или публичных гайдов например от OWASP.

Раздел БДУ «Угрозы безопасности информации систем ИИ» (ФСТЭК)

Другая важная методологическая веха — появление раздела БДУ ФСТЭК «Угрозы безопасности информации систем ИИ» (конец декабря 2025). Это не документ, но одно из самых впечатляющих свидетельств развития регуляторного поля в стране, так как, с точки зрения федеральной службы, технологии RAG и AI-агентов появились совсем недавно, и то что к ним уже предложен подход к защите, не может не радовать.

Документ делит угрозы на две категории по объекту защиты:

инфраструктура разработчика (этап разработки/обучения),
инфраструктура оператора (этап эксплуатации).

С точки зрения инфраструктуры, обобщенно, с этим можно согласиться - почти всегда можно свести деятельность с моделью на различных стадиях ее ЖЦ именно к этим двум контурам, уязвимости и способы атаки на которые действительно различаются.

Инфраструктура разработчика: что считается объектом и как атакуется

В разделе перечисляются объекты, которые должны рассматриваться как точки атаки и точки защиты: программное обеспечение для разработки и обучения, библиотеки/фреймворки, API и агентные компоненты (включая системы цензуры - то есть гардрейлы), входная/выходная модель (речь про дообучение), датасеты, веса. Отдельно отмечается, что результаты обучения и разработки могут включать LoRA-адаптеры и RAG, и это тоже становится объектом угроз.
Способы реализации угроз сведены в набор типовых сценариев (табл.1; СП.1–СП.6):

эксплуатация уязвимостей;
модификация ПО/конфигураций;
отравление наборов обучающих данных;
подмена весов модели/LoRA и данных RAG.

В разделе про инфраструктуру разработчика показано, что модель ИИ — это элемент релизного цикла. Соответственно, главная мысль - у модели есть пайплайн разработки, есть зависимости и артефакты, и нарушитель может это атаковать, как обычный supply chain. При этом ко всем терминам даны вполне адекватные и полные определения (RAG, LoRA, промпт, ...)

Инфраструктура оператора: угрозы эксплуатации и реальные сценарии

Под оператором понимается владелец и управляющая сторона среды исполнения модели ИИ и приложения с ее использованием. В этой среде содержится уже обученная модель ИИ, ее расширения (LoRA/RAG), системный промпт, агент (в том числе как «исполнитель действий» через инструменты), и инфраструктура, которая обеспечивает всю детерминированную логику - вызовы API и тд.

Способы реализации угроз (табл.2; СП.1–СП.7) описывают основные негативные последствия, которые может вызвать нарушитель в рантайме:

DoS за счет массовых запросов и исчерпания квот/токенов (СП.1, СП.7);
специальные запросы (в том числе через RAG/внешнюю аугментацию), направленные на утечку или нарушения функционирования, в том числе промпт-атаки (СП.2);
атака через выявление недостатков модели (СП.3) - я так понимаю, речь про извлечение системного промпта;
модификация весов (СП.4);
модификация конфигурации, включая системный промпт и конфигурацию агентов (СП.5);
кража модели через обучение другой модели на ответах (СП.6).

Отдельно оговорено: если у оператора включаются режимы дообучения/continuous learning или изменяется RAG, то ему нужно учитывать и угрозы «зоны разработчика». Оценка угроз при этом проводится по методике ФСТЭК от 05.02.2021.

БДУ по сути сделал краткий аналог OWASP Top10 для LLM и AI-агентов. То есть теперь есть официальный материал, который можно использовать как основу для модели угроз и для планирования мер безопасности ИИ в любой российской организации.

Вывод по существующим документам, сквозной пример

Рос��ийский регуляторный вектор по ИИ-безопасности сейчас очень практикоориентирован: требования → проверяемость → модель угроз → привязка к реальным объектам (данные/веса/LoRA/RAG/промпты/агенты). И скорость развития — высокая.

И вот здесь, как мне кажется, начинается самое интересное. Если собрать вместе №490 как рамку, №117 как требования к внедрению, методику как набор проверяемых шагов аудита и БДУ как модель угроз по объектам, то получается почти замкнутый практический контур: что считать важным → что требовать → как проверять → по каким угрозам строить защиту. При этом по мере взросления GenAI и особенно агентных систем появляются несколько зон, где инженерная практика уже ушла вперёд формальных формулировок: доступы у «нечеловеческих» субъектов (агентов), новые носители/каналы данных (контекст, RAG, логи, embeddings) и “уязвимости поведения” (prompt-инъекции, jailbreak), которые по сути уже эксплуатируются как уязвимости, но пока описываются разными словами и живут в разных документах.

Еще, конечно, нельзя не сказать, что в России действуют и некоторые сателлитные, рекомендательные документы, которые затрагивают безопасность ИИ. В их числе ГОСТ про управление и термины ГОСТ Р ISO/IEC 42001-2024 (AIMS), ГОСТ Р ISO/IEC 24029-2-2024 (робастность), Кодекс этики ИИ (Альянс, 2021), Кодекс ответственного применения ИИ на финрынке (Банк России, 2025).

Приведу пример применения документов для объекта защиты: система с LLM‑ассистентом, использующим RAG, и с агентом, который создает заявки в ИТ‑системе.

По п.60 №117 объектами защиты становятся: данные (включая RAG‑источники и журналы диалогов), модель/параметры, сервисы обработки данных и поиска решений.
По новому разделу БДУ ФСТЭК строится модель угроз: что можно подмешать в RAG/контекст, что можно изменить в конфигурации агента/системного промпта, как выглядит DoS по токенам, где лежит риск кражи модели. И при чем сделать это так, чтобы бы нанесен вред бизнесу.
В рантайме по п.61 приказа №117 в проекте появляются: фиксированные версии системного промпта/шаблонов, политика допустимых тематик, правила детектирования сигналов в потоках входных/выходных данных для создания инцидентов, плейбуки реагирования.
На дизайнтайме по методике оценки защищенности (МИИ‑блок) с какой-то регулярностью перед выводом в прод нового релиза проверяются: устойчивость системы к промпт‑атакам на обход ограничений и вызов инструментов (МИИ.1.1 и МИИ.1.7), утечки через ответы и контекст (МИИ.1.3). Необходимо также провести аудит систем управление доступом к модели и интеграциям (МИИ.1.6), оценить уязвимости библиотек и окружения (МИИ.2.1 и МИИ.2.2).

Зоны развития регуляторики, и идеи

Дальше я попробую рассказать три своих идеи того, как пробелы в существующей нормативке можно было бы закрывать с помощью новых документов. Расскажу про их возможную связь с тем, что описал выше, возможный вид этих документов, и конечно какую суть в них можно было бы заложить. Каждую идею можно использовать и просто как подход к решению некоторых частных вопросов кибербезопасности GenAI.

1) Управление доступом для AI-агентов

С появлением агентных приложений у нас в контуре появляется субъект, который не укладывается в привычный IAM. Агент — это не человек и не сервисная учётка в классическом смысле. Он планирует шаги, держит контекст, вызывает инструменты и может выполнять цепочки операций, которые в обычном мире выполнялись бы руками администратора или операторов через UI.

По моему мнению, для недетерминированных систем необходима повторная авторизация на более глубоком уровне, чем обычно - на уровне отдельных операций: отдельные разрешения на чтение, поиск, экспорт, изменение, выдачу прав, удаление, массовые действия, вызов внешних API, оплату и т.д. При чем отдельные, ограниченные во времени, попытках, с условиями по контексту. В модели данных логов кибербезопасности при этом нужно отразить телеметрию агентов так, чтобы при разборе инцидента можно было доказать причинно-следственную цепочку: контекст → намерение → действие → результат.

Взаимодействие с информацией у агента происходит при совершении вызова инструментов (tool-call). Это означает, что на каждом tool-call необходим контроль доступов, и необходимо описать отдельный режим выдачи привилегий для опасных действий (human-in-the-loop). Более того, особенно важно вести реестр агентов, чтобы была сформирована матрица “пользователь → система → агент → инструмент → операции”. При чем итоговый уровень доступа к операции формируется на основе пересечения доступов пользователя, промежуточной системы и самого AI-агента.
А также для AI-агентов очень важен JIT-доступ: права выдаются кратко, под конкретную цель, на конкретный ресурс, в конкретном временном окне. И в частности это должно использоваться для human-in-the-loop, чтобы действия над критичным активом в зависимости от контекста можно было заблокировать и не допустить негативное последствие. Эту технологию в OWASP Top 10 Agentic AI авторы называют intent-signed tokens: токен доступа подписывается доверенным компонентом (policy engine / tool-gateway) и содержит не только указатель на уполномоченное лицо, но и идентификатор агента с упоминанием, какое совершается действие, объект действия, ограничения по данным/объему/времени, контекст выполнения.

Технически это проще всего реализуется как короткоживущий JWT-подобный артефакт с набором claim’ов: intent_id, action, resource, data_class, ttl, nonce, approver (если было подтверждение человеком). При совершении действия агент сначала обращается к пользователю за авторизацией, получает intent-signed token, и уже с ним идет к инструменту. Инструмент/шлюз валидирует подпись и ограничения, отказывает при несоответствии, и пишет в аудит “интент → действие → результат”.

Скорее всего, это может воплотиться в виде отдельного отраслевого стандарта.

2) Безопасность данных в GenAI-контурах

В проектах c генеративным ИИ часто спроектированное вначале решение пересматривается. При чем во много из-за специфики работы с данными - под ним могут пониматься и данные обучения моделей, и данные валидации бизнес-кейсов приложений с GenAI, и набор системных инструкций под разные сценарии р��боты приложения (представляющего из себя разветвленный LLM-workflow), и документы в СУБД в виде чанков и эмбеддингов для RAG, собираемые на этапе эксплуатации логи диалогов чатбота. Данные стали принимать множество разных форм, которых еще вчера не предполагали, а соответственно, не учитывали, и главное - не защищали.

Приказ №117 закрепляет базовую тройку объектов защиты: данные, модель, приложения (п.60). Детализации нет, но и не должно быть, потому что приказ - верхнеуровневый документ. Поэтому, для внедрения на основе требований приказа каких-либо практик ИБ, требуются отдельные технические документы, поясняющие и рекомендующие варианты выполнения требований. В таких документах необходимо описать, какие именно «носители» информации возникают вокруг LLM на всех этапах жизненного цикла, какие форматы могут принять данные. Это может быть отдельный ГОСТ, инструкция по обеспечению управления доступом к данным в системах с использованием ИИ, или частью нормативного или рекомендательного акта с более широкой областью действия (например, стандарт по информационной безопасности данных, используемых системами с ИИ).

Итак, хранилища и средства передачи данных, с помощью которых LLM получает фактическое содержание - это объект учета и защиты. Организациям имеет смысл разделять «обычные» СУБД от СУБД, работающих на контур генеративного ИИ, по одному признаку: данные из хранилища могут попасть в контекст модели или повлиять на действия агента без участия человека. Для учета "GenAI-хранилищ" необходимо понимать всю цепочку состояний данных при передаче. Она для каждой задачи, процесса и IT-ландшафта компании уникальна, и может принять например такой вид: холодное хранение (СУБД №1) → горячее хранение (СУБД №2) → передача контекста (топик в Kafka как шина) → формирование ответа (СУБД #3, in-memory) → отображение в браузере (СУБД #4, in-memory на стороне клиента в браузере). Можно продолжать цепочку и далее, но суть не изменится. Хранилище, участвующее хотя бы в одной из таких цепочек, становится частью контура "GenAI-данных".

Учет СУБД и систем транспортировки данных (ETL), обрабатывающих данные для GenAI-приложений и сгенерированные ими, предполагает определенные специфичные меры, которые к ним должны применяться. Эти специфичные меры должны быть направлены на предотвращение двух классов угроз: внедрение промпт-атак в данные и внедрение данных с конфиденциальной информацией (или персональными данными).

При этом документ должен учитывать определенные подводные камни: конфликт требований по срокам хранения (данные нужны для расследования инцидентов и при этом опасны как источник утечек), сложность контроля распространения производных (в т.ч. сгенерированных) данных, учет объектов данных как активов, потенциально обладающих уязвимостями.

3) Уязвимости ИИ: не только свойства программных компонент, но и свойство данных, приводящее к неустойчивости к промпт-атакам

В проектах с генеративным ИИ понятие «уязвимость» перестаёт быть синонимом ошибки в коде. Но на практике с GenAI-системами появляется второй слой: уязвимости появляются у данных и моделей тоже. Если формализовать, то я бы сказал, что уязвимость GenAI-модели - воспроизводимая последовательность входных запросов, которая приводит к нарушению требований безопасности к GenAI-модели. К ним относятся не только пользовательские промпты, это еще и документы, которые подмешиваются в контекст через RAG, и память агента, и шаблоны системных инструкций, описания инструментов. Уязвимости принимают много форм, которые раньше не описывали, не учитывали и не проверяли.

Детализации уязвимостей и порядка их учёта нет пока ни в каком документе (за рубежом при чем, кажется, тоже). Документ, посвященный способу их выявления и устранения, должен описать: что считается уязвимостью ИИ в эксплуатационном смысле, как её подтверждать, как оценивать критичность, какие артефакты считать доказательством, как проводить повторную проверку, как митигировать. Это может быть отдельный ГОСТ, методические рекомендации по анализу защищённости систем с ИИ, либо раздел в стандарте по управлению уязвимостями, расширенный под особенности LLM и агентных приложений.

Итак, уязвимости в контурах GenAI имеет смысл учитывать как отдельный класс. Жизненный цикл, необходимый для управления ими, похож на классический: выявление → подтверждение → оценка критичности → устранение → повторная проверка (в том числе при каждом новом релизе используемой модели или смене любой части системных инструкций). Главное - формализовать критерии подтверждения, иначе каждый кейс будет превращается в спор с разработчиками о важности результатов.
Минимальный набор критериев для подтверждения уязвимости (параметров уязвимости) может выглядеть так:

канал атаки: пользовательский ввод, документ RAG, память/журналы, системная инструкция, описание инструмента, межагентный обмен;
условия: какие права нужны, какие данные доступны, включены ли инструменты, есть ли доступ к RAG-источникам, есть ли память;
сценарий воспроизведения: фиксированный набор входов и шагов, включая сборку контекста и вызовы инструментов;
критерий успеха: измеримый результат (утечка конкретного класса данных, выполнение запрещённого действия, обход запрета тематики, изменение состояния в системе, снижение доступности);
воспроизводимость в числах: доля успешных попыток при фиксированных условиях (например, k из n) и при допустимой вариативности контекста;
пакет доказательств: входы/контекст, журналы извлечения контекста, журналы вызовов инструментов, параметры конфигурации, отметки времени и идентификаторы сессий.

Оценка критичности тоже должна считаться по параметрам контура, а не по «опасности текста». На практике критичность определяется наличием инструментов и их полномочий, классом доступных данных, уровнем автономности агента, масштабом воздействия (единичный случай или массовая эксплуатация), сложностью воспроизведения и качеством обнаружения по журналам.

Аудитор, или автоматизированная система учета уязвимостей (VM) может, таким образом, как агрегировать информацию по проведенным атакам на модели и приложения (например, какие классы уязвимостей покрыты контрольными сценариями), так и выводить сводки по каждому отдельному методку промпт-атак, то есть уязвимости модели (например, где хранится программный код (PoC по сути) для повторной проверки, когда и кем зафиксировано устранение путем, например, дообучения модели).

В организации должны быть установлены нормативы по срокам первичной квалификации и устранения уязвимостей моделей и приложений с GenAI. При чем важно понимать, что исправления могут быть не в переобучении модели, а в изменении текста системного промпта даже, или пправил сборки контекста, фильтрации, правах на инструменты, удалению лишних данных в RAG, или ограничениях на ретривере (объем извлекаемых данных, близость, или другие статистики). И далее эту информацию еще следует использовать в процессе реагирования на инциденты ИБ, чтобы видеть, на какие дальнейшие исследования защищенности организации стоит делать акцент команде редтима в дальнейшем.

Подводя итоги

Прошлый год был богат на новшества в регуляторной части нашей отрасли, на свет появились несколько фундаментальных вещей: №117 приказ с требованиями к GenAI-сервисам, методика оценки защищенности с базовыми процедурами AI Red Team, а также модель угроз для двух типов организаций - разработчик GenAI и пользователь GenAI.

Основные 5 требуемых мер по безопасности ИИ ~~для тех кому лень читать~~:

описать границы AI‑контура и перечень активов (п.60 №117);
собрать модель угроз по БДУ и сопоставить ее со своими требованиями и ИТ-архитектурой.
зафиксировать системный промпт/шаблоны и правила изменения (п.61 №117);
определить допустимые тематики контента и правила детектирования и реагирования на инциденты в рантаймовых входных/выходных потоках данных (п.61 №117);
построить план проверок по МИИ‑блоку методики и требуемые артефакты;

Однако все равно, работы еще много, и есть где углубиться для обеспечения более гладкого и эффективного развития технологий по кибербезопасности ИИ в нашей стране. Надеюсь, озвученные мной предложения по отдельным вопросам с доступом и уязвимостями уже помогут кому-то построить свои процессы в организациях лучше, ну а если это поспособствует какой-то более масштабной деятельности - станет вообще замечательно)

Больше интересных статей и постов про AI Security есть у меня в канале "Борис_ь с ml".