Pull to refresh
Криптонит
Разрабатываем. Исследуем. Просвещаем

Что такое Adversarial Suffixes и чем они опасны? Попросила коллег из лаборатории искусственного интеллекта «Криптонита» рассказать об этом — читайте ниже!

Если прямо попросить большую языковую модель (вроде GPT-4 или LLaMA 3) написать инструкцию о взломе, она ответит отказом. Также она не станет помогать с другими вещами на грани закона.

Однако существуют методы, заставляющие языковые модели раскрывать потенциально опасные данные. Один из них относится к классу состязательных атак (adversarial attacks).

В нём используются специальным образом подобранные последовательности символов, которые называют adversarial suffixes (состязательные суффиксы).

Они нарушают работу механизма внимания модели, из-за чего она игнорирует системные инструкции по безопасности и выполняет вредоносную часть запроса.

Исследование этой техники показывает, насколько уязвимы даже самые продвинутые модели, в обучение которых вложили десятки миллионов долларов.

Любопытно, что состязательные суффиксы никак не меняют основную часть запроса. Они просто добавляются в его конец и перегружают механизм внимания. В итоге модель выдаёт детальный ответ с потенциально опасными данными, хотя без добавления суффикса ответила бы отказом.

В настоящее время предложено несколько методов защиты:

  • Adversarial Training (состязательное обучение): модель дополнительно обучают на примерах таких атак, чтобы научить их распознавать и игнорировать.

  • Perplexity Filtering (фильтрация входных данных): модель просто отклоняет неестественно сформулированные запросы, которые вызывают у неё высокий уровень «недоумения» (perplexity).

  • Prompt Moderation (модерация промптов): дополнительное использование отдельной, более компактной модели для автоматического распознавания и блокировки вредоносных запросов до их отправки в основную модель.

Состязательные суффиксы демонстрируют, что выравнивание (alignment) моделей — это не разовая задача, а непрерывная «гонка вооружений».

Понимание природы этих уязвимостей — важный шаг к созданию более надёжных и безопасных систем искусственного интеллекта.

Tags:
+3
Comments0

Articles

Information

Website
kryptonite.ru
Registered
Founded
Employees
501–1,000 employees
Location
Россия