Данная публикация является переводом статьи Matt Maloney - "Security risks in AI supply chains".
Компании всё чаще вынуждены внедрять передовые технологии ИИ, чтобы не отставать от конкурентов. Однако спешка в этом деле может привести к ошибкам и угрозам безопасности. Новый отчёт Коалиции безопасного ИИ описывает неожиданные угрозы, которые могут возникнуть из-за данных, моделей и технической инфраструктуры, лежащих в основе искусственного интеллекта. Также в отчёте рассказывается, как компании могут защититься от этих рисков.
Среди главных выводов отчёта:
Организации должны рассматривать всю цепочку поставок ИИ как динамичную, постоянно меняющуюся поверхность для атак, которая требует непрерывных инноваций в области защиты.
Системы ИИ требуют специализированной оценки рисков, выходящей за рамки традиционных подходов к безопасности.
Стратегии защиты должны включать комплексную оценку рисков на всех этапах, раннее взаимодействие для снижения рисков в процессе разработки, а также меры по обеспечению происхождения и прозрачности данных.
Приоритетом должно стать использование «подписания моделей» — процесса криптографической аутентификации модели поставщиком для проверки её целостности и происхождения, чтобы убедиться в отсутствии вмешательств.
Специалисты по безопасности, разработчики ИИ и руководители должны совместно интегрировать как специфические для ИИ, так и традиционные меры контроля.
Пока предприятия пытаются освоиться с этой новой парадигмой безопасности, отчёт CoSAI предоставляет набор стратегий, позволяющий организациям уверенно внедрять инновации и с устойчивостью ориентироваться в меняющемся ландшафте.
Решение ключевых вопросов безопасности ИИ
Системы искусственного интеллекта представляют собой сложные задачи в области безопасности, которые существенно отличаются от проблем, связанных с традиционным программным обеспечением. Распределённая по сложной инфраструктуре из данных, моделей, приложений и систем, цепочка поставок ИИ уязвима перед множеством угроз, включая действия злоумышленников. Это может привести к серьёзным последствиям для организаций — как со стороны обеспокоенных потребителей, так и со стороны всё более внимательных регуляторов.
В отчёте выделены четыре критически важных вопроса безопасности, которые необходимо понимать руководителям предприятий.
1 Предотвращение загрязнения данных
Данные — это основа ИИ, они служат исходным материалом как для обучения моделей, так и для их последующего использования.
Уязвимость
Злоумышленники могут использовать возможности публичного интернета, намеренно размещая вредоносные или некорректные данные в надежде, что ИИ-системы в процессе сбора данных включат их в обучающие выборки.
Угроза существует и после сбора данных. В отличие от традиционного ПО, где конфиденциальная информация хранится в конкретных, отслеживаемых местах, в системах ИИ информация распределяется по миллионам или миллиардам взвешенных соединений. Это создаёт обширную поверхность для атак.
Решение
Организациям необходимо отслеживать и тестировать данные, полученные из публичных источников. Несмотря на объёмы информации, используемой для обучения ИИ, эту задачу можно решить с помощью проверочных конвейеров (data validation pipelines) и систем обнаружения аномалий, фильтрующих входящий поток данных.
После проверки организация должна гарантировать безопасность проверенных данных, тщательно документируя, откуда они получены и где хранятся. Криптографические инструменты, такие как контрольные суммы (checksums) и хеши содержимого (content hashes), помогут убедиться в целостности данных, а журналы URL-адресов позволят отслеживать, какие веб-страницы посещала система, чтобы выявлять потенциальные угрозы.
2 Защита весов модели от вмешательства
Хакеры могут попытаться изменить числовые значения (веса), которые используются ИИ-моделями для генерации ответов. Это способно привести к появлению вредоносных или некорректных результатов.
Уязвимость
Злоумышленники могут взломать сервер или украсть учётные данные, чтобы изменить веса модели. Это может привести к тому, что ИИ будет неправильно классифицировать данные или генерировать опасный контент. При этом последствия могут быть не сразу заметны — взлом может внедрить скрытые триггеры, при которых модель будет вести себя нормально, пока не поступит конкретный входной запрос, вызывающий сбой или утечку данных.
Решение
Необходимо использовать жёсткие меры контроля доступа и многофакторную аутентификацию, чтобы ограничить доступ к серверам и системам, где хранятся модели. Подпись модели (model signing) позволяет проверить подлинность артефакта модели и убедиться, что в него не было внесено несанкционированных изменений.
Также организациям следует задать базовую линию поведения модели и постоянно проводить мониторинг и аудит, чтобы выявлять отклонения. Например, инструмент Sigstore может использоваться для верификации артефактов модели (всех файлов, создаваемых в процессе её обучения и упаковки) и обнаружения возможного вмешательства после развертывания.
3 Обнаружение вредоносных запросов (adversarial prompts)
Запросы (prompts) используются для того, чтобы направлять ИИ-модель на поиск информации и генерацию ответов. Однако опытный злоумышленник может сформулировать вредоносных запрос, чтобы заставить модель выдать конфиденциальную, ложную или вредоносную информацию.
Уязвимость
Такие вредоносные запросы могут быть внедрены в справочные материалы или поступать через те же интерфейсы, что и от легитимных пользователей — включая чат-боты, текстовые и графические данные, а также скрипты, обращающиеся к API. Используя слабые места, такие как дефекты обучающих данных или недостаточная модерация контента, атакующие могут обойти защитные механизмы модели и внедрить опасные инструкции.
Решение
Необходимо мониторить поведение моделей на наличие тревожных признаков, таких как:
повторяющиеся ключевые слова,
закодированные символы,
подозрительные формулировки,
отклонения от ожидаемого поведения (например, противоречивые ответы или внезапный переход к небезопасному контенту).
В системах с дополненной генерацией через поиск (RAG) можно применять сопоставление шаблонов и эвристический анализ, чтобы убедиться, что извлекаемый контекст не содержит вредоносных запросов.
Регулярные пентесты и прочие методы тестирования на устойчивость к угрозам помогают оценить, как модель реагирует на различные сценарии атак.
4 Атаки на цепочку поставок (supply chain attacks)
Злоумышленники регулярно пытаются скомпрометировать open-source библиотеки, которые играют ключевую роль в разработке моделей ИИ. Среди их методов — внедрение бэкдоров (скрытого вредоносного кода), захват заброшенных проектов и typo-squatting — создание пакетов с названиями, схожими с популярными библиотеками, с расчётом на ошибки пользователей.
Уязвимость
Компании часто используют общедоступные open-source ресурсы для обучения своих моделей. Однако злоумышленники могут внедрить вредоносный код в одну из зависимостей (например, в библиотеку), что приведёт к утечке конфиденциальных данных или даже к получению удалённого доступа к системе.
Решение
Для защиты от подобных угроз организациям необходимо внедрить всеобъемлющую стратегию безопасности программной цепочки поставок.
Она должна включать:
Сканирование зависимостей (dependency scanning): регулярное сканирование всех внешних компонентов и библиотек на наличие известных уязвимостей с помощью специализированных инструментов.
Безопасные практики разработки: стимулирование разработчиков к соблюдению принципов безопасного программирования, а также наличие процесса безопасного выбора, оценки и интеграции сторонних библиотек.
Такие меры помогают существенно снизить риски, связанные с использованием уязвимых или заражённых компонентов в ИИ-разработке.
Формирование культуры безопасности при работе с ИИ
Чтобы эффективно и безопасно использовать потенциал искусственного интеллекта, бизнес-лидерам необходимо создавать чёткие правила и развивать культуру, ориентированную на безопасность. Это предполагает:
прозрачное управление использованием ИИ,
жёсткий контроль целостности данных,
непрерывную работу по снижению рисков с целью соблюдения нормативных требований и укрепления доверия.
Специалисты по безопасности играют ключевую роль в создании комплексных программ, ориентированных на ИИ, которые охватывают данные, модели и пользователей этих технологий.
Исследователи и инженеры, непосредственно работающие с ИИ, должны:
интегрировать меры безопасности на всех этапах разработки,
постоянно проверять данные,
тесно сотрудничать с командами безопасности, чтобы выявлять и устранять уязвимости до того, как ими воспользуются злоумышленники.
Формирование такой культуры — это не разовое действие, а непрерывный процесс, требующий вовлечённости всех участников экосистемы ИИ.