fisher85 Apr 2 at 20:42

Мы так и не смогли защитить свою модель машинного обучения от состязательных атак. Пока

Medium

13 min

3.6K

Институт системного программирования им. В.П. Иванникова РАН corporate blogInformation Security*Machine learning*

Case

+21

Comments 8

MiyuHogosha Apr 3 at 00:02

По-моему мать природа уже доказала что идеальная защита невозможна. На протяжении миллионов лет идеть борьба иммнных систем и вирусов и по сути своей это и есть состязательгая атака (на физическом носителе)

Deosis Apr 3 at 07:32

Это больше похоже на парейдолию, и для исправления нужно кратное увеличение сложности моделей.

shares-caisson Apr 3 at 08:21

Несмотря на годы предупреждений о подобных атаках, они так и не выбрались из стадии математического курьёза и академических статей.

fisher85 Apr 3 at 11:09

Генассамблея ООН не соглашается с вашим тезисом и неделю назад принимает резолюцию по искусственному интеллекту под названием: "Использование возможностей безопасных, защищенных и надежных систем искусственного интеллекта для устойчивого развития".

shares-caisson Apr 3 at 11:19

Спасибо, мне от политруков и так тошно.

fisher85 May 6 at 20:35

В Artificial Intelligence Index Report 2024 нашлась хорошая ссылка на базу данных с тысячами примеров, когда системы искусственного интеллекта ошибались / приносили вред / использовались не по назначению: https://incidentdatabase.ai/

maxwolf Apr 5 at 02:52

На первый взгляд, напрашивается введение параметра "устойчивости" признака при состязательном обучении. Т.е. тот признак, который при очередной итерации состязательного обучения меняется больше, считается менее устойчивым, и получает меньший вес.

fisher85 Apr 5 at 10:30

Не совсем понял. Когда мы говорим про состязательное обучение, по сути, мы - как разработчики модели - встаём на сторону атакующего. И сами реализуем состязательную атаку против своей модели, чтобы найти состязательные примеры, корректно их разметить, добавить в обучающую выборку, повысить устойчивость модели.

Задача поиска состязательного примера для модели классификации ставится так: взять исходный несостязательный пример (в нашем случае из класса "атака") и "немного" изменить в нём значения признаков так, чтобы модель для этого примера изменила метку класса в ответе (чтобы ответ вместо "атака" стал "не атака"). И если при этом сохраняется действие атаки у найденного состязательного примера, то такой пример действительно обманывает модель, и он будет являться эффективным состязательным примером.

При постановке задачи поиска задаётся условие: расстояние (в каком-то смысле) между найденным состязательным примером и исходным примером должно быть минимальным или "малым". Грубо говоря, мы сами при генерации состязательных примеров можем указать эпсилон, которым отрегулируем эту "малость". И, фактически, не допускать ситуации, когда значения признаков будут "сильно" изменяться.

А ещё есть отдельное направление: "Generating Constraint-based Adversarial Examples". Пример статьи.