Моменты, когда модель генерировала не то, что я хотел, конечно, были. Во время моего небольшого исследования некоторые токены образовывали словосочетания, которые модель "воспринимала" как ещё один вопрос и при генерации отвечала на него. Чтобы до конца понять, почему модель работает таким образом и какую роль играет алаймент, нужно углубиться в тонкости процесса генерации и работы моделей. В рамках одной статьи или даже серии статей это сложно реализовать. Точных ссылок на исследования у меня под рукой нет, но, возможно, эта книга даст ответы на некоторые вопросы. Книга: https://arxiv.org/pdf/2501.09223
Давайте зайдем с другой стороны. Для получения харм-ответа от ЛЛМки вам не нужно заранее знать его содержание. У вас есть вопрос, на который вы хотите получить ответ, и модель, которой вы задаёте этот вопрос. Ваша цель это с помощью состязательного суффикса заставить модель начать ответ со слов «Конечно, вот». Такое начало с высокой вероятностью побуждает модель продолжить генерацию вредоносного ответа. Алгоритм GCG максимизирует вероятность такого ответа, то есть минимизирует лосс-функцию, изменяя токены в суффиксе.
Подскажите, пожалуйста, на каких моделях Вы генерировали атаку и какая модель была «жертвой»? Возможно стоит поменять опенсорсные модели, чтобы улучшить ASR. Также хочу отметить, что ЛЛМки это недетерминированная вещь, поэтому если атака не сработала с первого раза, это не означает, что она не работает.
Подскажите, на каких моделях генерировали атаку и сколько было попыток. Атака не самая новая, но она выявляет фундаментальный недостаток ЛЛМок. Однако в ChatGPT-5, скорее всего, реализована защита, о которой я расскажу в следующей статье. Также следующая часть будет посвящена новому этапу этого типа атак. Можете попробовать атаковать ChatGPT-5 с помощью новой версии.
Атака работает не так, но мотивация верная) Я не пробовал модифицировать алгоритм для такого, но если у Вас получится, это будет отличный повод для статьи.
Ответ на вопрос «Как и почему?» начинается с заголовка «Столпы состязательных суффиксов». Ответ на «Для чего это нужно?» кажется очевидным: чтобы получать от модели ответы на интересующие Вас вопросы. Определение неприемлемых вопросов у Вас и у разработчиков может различаться, поэтому иногда приходится прибегать к таким обходным путям.
Моменты, когда модель генерировала не то, что я хотел, конечно, были. Во время моего небольшого исследования некоторые токены образовывали словосочетания, которые модель "воспринимала" как ещё один вопрос и при генерации отвечала на него.
Чтобы до конца понять, почему модель работает таким образом и какую роль играет алаймент, нужно углубиться в тонкости процесса генерации и работы моделей. В рамках одной статьи или даже серии статей это сложно реализовать. Точных ссылок на исследования у меня под рукой нет, но, возможно, эта книга даст ответы на некоторые вопросы. Книга: https://arxiv.org/pdf/2501.09223
Давайте зайдем с другой стороны. Для получения харм-ответа от ЛЛМки вам не нужно заранее знать его содержание. У вас есть вопрос, на который вы хотите получить ответ, и модель, которой вы задаёте этот вопрос. Ваша цель это с помощью состязательного суффикса заставить модель начать ответ со слов «Конечно, вот». Такое начало с высокой вероятностью побуждает модель продолжить генерацию вредоносного ответа. Алгоритм GCG максимизирует вероятность такого ответа, то есть минимизирует лосс-функцию, изменяя токены в суффиксе.
Подскажите, пожалуйста, на каких моделях Вы генерировали атаку и какая модель была «жертвой»? Возможно стоит поменять опенсорсные модели, чтобы улучшить ASR. Также хочу отметить, что ЛЛМки это недетерминированная вещь, поэтому если атака не сработала с первого раза, это не означает, что она не работает.
Подскажите, на каких моделях генерировали атаку и сколько было попыток. Атака не самая новая, но она выявляет фундаментальный недостаток ЛЛМок. Однако в ChatGPT-5, скорее всего, реализована защита, о которой я расскажу в следующей статье. Также следующая часть будет посвящена новому этапу этого типа атак. Можете попробовать атаковать ChatGPT-5 с помощью новой версии.
Атака работает не так, но мотивация верная) Я не пробовал модифицировать алгоритм для такого, но если у Вас получится, это будет отличный повод для статьи.
Ответ на вопрос «Как и почему?» начинается с заголовка «Столпы состязательных суффиксов». Ответ на «Для чего это нужно?» кажется очевидным: чтобы получать от модели ответы на интересующие Вас вопросы. Определение неприемлемых вопросов у Вас и у разработчиков может различаться, поэтому иногда приходится прибегать к таким обходным путям.