Как стать автором
Обновить

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3.5K
Всего голосов 4: ↑4 и ↓0+4
Комментарии5

Комментарии 5

Лучший способ взлома моделей

Это действительно про взлом моделей? Или все-таки про "интерфейсы обращения к моделям"?

Защита "зашивается в модель" или условно в системный промпт, запрещающий что-то отвечать?

  1. Слово «взлом» возможно слишком громко будет использовать, однако удобно и его истинное значение становиться понятно из контекста.

  2. По поводу ответа на второй вопрос

    Это довольно тонко подмечено, обучение внутренней защиты самой модели (не путать с input и output фильтрами), было на большой выборке нецензурных примеров которые следовали определенному регламенту. Они были хорошо оформлены, структурированы и грамотны. В этом и кроется основная суть данной уязвимости.

Я просто не особо разбираюсь в их внутренней кухне форматах и т.п. Больше на прикладое использование ориентируюсь.

Скажем, для Stable Diffusion в моем представлении Safe For Work модели просто тренируются на выборке без всяких нюдсов и расчлененки. Все не вычистишь, поэтому все-таки проскальзывает, но изредка. То ли дело NSFW! Причем они полезны тем, что гораздо лучше "знакомы" с анатомией, ведь даже художникам корректно сначала нарисовать человека, а потом его "одевать".

Разумеется, есть всякие плагины, анализирующие сгенерированное изображение. Если NSFW детектед, выдача пользователю блокируется. Т.е. как бы одна модель генерирует, другая модель проверяет, что получилось, и при необходимости блокирует.

По вашей цитате получается, что в самой модели присутствует обучение на нецензурных примерах, причем для того, чтобы их недопускать. И это запутывает меня окончательно :)

Про то, что внутри одной модели прячется две (обученные на разных датасетах, одна для генерации, другая для проверки) - такого я не слышал.

Некоторые LLM могут обучаться на заранее "безопасном датасете", некоторые обучаются на общей выборке данных. Так или иначе многие опасные данные тесно связаны с практическим применением безопасных и... вопрос "а что нужно выбросить из датасета?" становиться неоднозначным и сложным. Разумнее создать нормальную модель которая может разбираться во всех направлениях, и уже потом встраивать в нее защиту.

Защита - это как input и output фильтры, для проверки поступательного запроса пользователя и генерируемого ответа модели, так и дообучение самой модели, чтобы она умела отказывать на нецензурные запросы.

Обучение проводиться на дополнительном датасете который подбирают и составляют вручную уже отдельно.

При этом для input и output фильтров может быть использована та же самая модель (или любая друзья модель из этого семейства, что стоит дешевле). Anthropic утверждали, что можно использовать Claude 3 Hauki для таких вещей.

Да,, я бы предпочел модель, знающую все. И при необходимости фильтровать выдаваемые ей результаты (в разных случаях разная фильтрация)

Мне вот этот момент непонятен: "дообучение самой модели, чтобы она умела отказывать на нецензурные запросы". Думал, что фильтруют input (специальной моделью) и в системный промпт запихивают, о чем отказываться общаться. Ну и ouput тоже проверять.

Но это все "защита интерфейса". Чтобы модель знала ответ, но не отвечала не потому что между ней и пользователем прослойка, а сама по себе - это для меня новость.

Недавно вот узнал, что модель часто не в курсе, кто она, ибо в тренировке таких данных еще не было. И системным промптом ее учат отвечать "я ХХХ версии Y", иначе "сама по себе" ответит чушь. Потому и заинтересовался.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации