Учёные из Калифорнийского университета в Беркли и Google опубликовали статью, в которой показали, что даже лучшие детекторы дипфейков могут ошибаться и подвержены состязательным атакам (adversarial attack). Исследователи заставили детектор классифицировать созданные нейросетью изображения как реальные.
В своей работе учёные использовали набор данных из 94 036 образцов изображений. Синтезированные нейросетью картинки были модифицированы таким образом, чтобы выглядеть, как реальные, и наоборот. Исследователи применяли различные способы воздействия — дисторсию (distortion-minimizing attack), вредоносные заплатки (universal adversarial-patch attack) и скрытое пространство (universal latent-space attack).
К искусственно сгенерированному изображению исследователи добавляли подмножества пикселей — в результате детектор ошибочно классифицировал 71,3% изображения с 2% изменений пикселей и 89,7% с 4%. При этом 50% реальных изображений считывались как поддельные при 7% изменений. Использование вредоносных заплаток оказалось ещё более эффективным — на изображения накладывалась картина шумов, которая вынудила считать два изображения, сгенерированные нейросетью, как реальные с вероятностями 98% и 86%. Генерация изображений в скрытом пространстве же снизила точность детектора с 99% до 17%.
Затем учёные попытались обмануть детектор по принципу «чёрного ящика», когда им неизвестны внутренние механизмы. Они разработали собственный детектор, предоставив ему по миллиону реальных и поддельных изображений, и обучили его на принципе генеративных состязательных сетей вместе с детектором из предыдущего опыта, который обманывали с помощью дисторсии. В результате новый ИИ стал ошибаться в 99,97% случаев вместо 15%, которые он показывал перед состязательным обучением. Применение этого метода к стороннему популярному детектору снизило его точность с 96% до 22%.
«Эта уязвимость в детекторах дипфейков может использоваться недостойных целях и основана на приципе состязательности нейросетей Поэтому детекторы, используемые в судебных экспертизах, должны иметь противоборствующие этому модели», — пишут учёные. По их словам, к проблеме не стоит относиться легкомысленно, а если подобные уязвимые системы используются в повседневной жизни правоохранительными органами, они могут давать ложное чувство безопасности — а это может быть даже хуже, чем полной отсутствие таких инструментов.