Комментарии 5
Лучший способ взлома моделей
Это действительно про взлом моделей? Или все-таки про "интерфейсы обращения к моделям"?
Защита "зашивается в модель" или условно в системный промпт, запрещающий что-то отвечать?
Слово «взлом» возможно слишком громко будет использовать, однако удобно и его истинное значение становиться понятно из контекста.
По поводу ответа на второй вопрос
Это довольно тонко подмечено, обучение внутренней защиты самой модели (не путать с input и output фильтрами), было на большой выборке нецензурных примеров которые следовали определенному регламенту. Они были хорошо оформлены, структурированы и грамотны. В этом и кроется основная суть данной уязвимости.
Я просто не особо разбираюсь в их внутренней кухне форматах и т.п. Больше на прикладое использование ориентируюсь.
Скажем, для Stable Diffusion в моем представлении Safe For Work модели просто тренируются на выборке без всяких нюдсов и расчлененки. Все не вычистишь, поэтому все-таки проскальзывает, но изредка. То ли дело NSFW! Причем они полезны тем, что гораздо лучше "знакомы" с анатомией, ведь даже художникам корректно сначала нарисовать человека, а потом его "одевать".
Разумеется, есть всякие плагины, анализирующие сгенерированное изображение. Если NSFW детектед, выдача пользователю блокируется. Т.е. как бы одна модель генерирует, другая модель проверяет, что получилось, и при необходимости блокирует.
По вашей цитате получается, что в самой модели присутствует обучение на нецензурных примерах, причем для того, чтобы их недопускать. И это запутывает меня окончательно :)
Про то, что внутри одной модели прячется две (обученные на разных датасетах, одна для генерации, другая для проверки) - такого я не слышал.
Некоторые LLM могут обучаться на заранее "безопасном датасете", некоторые обучаются на общей выборке данных. Так или иначе многие опасные данные тесно связаны с практическим применением безопасных и... вопрос "а что нужно выбросить из датасета?" становиться неоднозначным и сложным. Разумнее создать нормальную модель которая может разбираться во всех направлениях, и уже потом встраивать в нее защиту.
Защита - это как input и output фильтры, для проверки поступательного запроса пользователя и генерируемого ответа модели, так и дообучение самой модели, чтобы она умела отказывать на нецензурные запросы.
Обучение проводиться на дополнительном датасете который подбирают и составляют вручную уже отдельно.
При этом для input и output фильтров может быть использована та же самая модель (или любая друзья модель из этого семейства, что стоит дешевле). Anthropic утверждали, что можно использовать Claude 3 Hauki для таких вещей.
Да,, я бы предпочел модель, знающую все. И при необходимости фильтровать выдаваемые ей результаты (в разных случаях разная фильтрация)
Мне вот этот момент непонятен: "дообучение самой модели, чтобы она умела отказывать на нецензурные запросы". Думал, что фильтруют input (специальной моделью) и в системный промпт запихивают, о чем отказываться общаться. Ну и ouput тоже проверять.
Но это все "защита интерфейса". Чтобы модель знала ответ, но не отвечала не потому что между ней и пользователем прослойка, а сама по себе - это для меня новость.
Недавно вот узнал, что модель часто не в курсе, кто она, ибо в тренировке таких данных еще не было. И системным промптом ее учат отвечать "я ХХХ версии Y", иначе "сама по себе" ответит чушь. Потому и заинтересовался.
Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»