Научная группа «Доверенные и безопасные интеллектуальные системы» Института искусственного интеллекта AIRI заявила о разработке метода выявления краж моделей искусственного интеллекта, доступ к которым предоставляется через API при участии коллег из «Сколтеха» и ИСП РАН. Новый протокол основан на создании триггерного набора данных, системы «водяных знаков», которые позволяют доказать, что модель была скомпрометирована.
По словам учёных, кражей модели называется ситуация, когда неавторизованные физические или юридические лица незаконно получают и используют модели ИИ, права на которые принадлежат другим лицам, без согласия их создателей. Популярные типы краж представляют собой дистилляцию модели и дообучение исходной модели на новом наборе данных с предварительным утаиванием способов получения исходной модели. Например, пользователь может получить определённые знания об архитектуре модели или множестве данных, на которых она обучалась, взять модель худшего качества и, избежав затрат на обучение и дизайн, натренировать копию. Эта копия будет использоваться для создания собственного коммерческого продукта в обход лицензий правообладателя. Делается это с помощью суррогатных датасетов, формирующихся так: объекты на входе в нейронную сеть комбинируются с ответами нейронной сети и включаются в обучающие выборки другой модели.
Объективное доказательство кражи модели — это сложная проблема для сообщества ИИ‑энтузиастов. Модели ИИ состоят из множества компонентов, затрудняющих отслеживание происхождения конкретных алгоритмов или фрагментов кода. Украденные модели подвергаются модификации, включая изменение параметров, переобучение модели или добавление в неё новых слоёв. Такими действиями злоумышленники усложняют установление прямой связи между украденной моделью и её первоисточником.
Как объяснила научная группа, большинство методов маркировки моделей содержат существенный недостаток: поведение водяных знаков плохо сохраняется в процессе процедуры кражи с атакой на функциональность. Предложенный учёными новый метод позволяет получить уникальные наборы триггеров, встраиваемых в ИИ‑модель, с высокой вероятностью сохранить эти знаки в процессе любых изменений. Эти водяные знаки проявляются, провоцируя определённое «поведение» модели в ответ на установленную процедуру проверки. Подход не зависит от модели, не требует дополнительного обучения модели и не накладывает никаких ограничений на размер набора триггеров.
Олег Рогов
кандидат физико-математических наук, руководитель научной группы «Доверенные и безопасные интеллектуальные системы» Института AIRI
«В первую очередь наш подход полезен „закрытым“ моделям, распространяющимся через API, поскольку их кража с максимальной вероятностью свидетельствует о нарушении конфиденциальности данных внутри компании — например, позволяет предположить, что внутри организации ведётся инсайдерская работа или был произведён не зафиксированный ранее взлом. Однако мы также поддерживаем применение водяных знаков для выложенных в открытый доступ под Оpen‑source лицензиями моделей. Да, как правило, они содержат в себе все необходимые для копирования модели данные. Однако наиболее популярные лицензии — даже Apache 2.0, разрешающая любые формы коммерческого применения разработки — требуют указания изначального авторства и всех внесённых в базовую модель изменений в системе кода. Цифровые водяные знаки помогут установить, что открытая модель была скопирована без учёта требований такой лицензии и помочь разработчикам в защите своей репутации. Повышая осведомлённость о рисках кражи моделей и методах их защиты, разработчики смогут принимать упреждающие меры как для охраны своей интеллектуальной собственности, так и для обеспечения ответственного использования технологий искусственного интеллекта».
На новый способ выявления краж ИИ‑моделей уже подана патентная заявка, а код уже прошёл государственную регистрацию и выложен в открытый доступ. Получить доступ к алгоритму маркирования можно по ссылке.