Комментарии / Профиль Ologos / Хабр

Пользователь

ПрофильСтатьи4Посты1НовостиКомментарии12

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Ologos 14 дек 2024 в 11:18

Некоторые LLM могут обучаться на заранее "безопасном датасете", некоторые обучаются на общей выборке данных. Так или иначе многие опасные данные тесно связаны с практическим применением безопасных и... вопрос "а что нужно выбросить из датасета?" становиться неоднозначным и сложным. Разумнее создать нормальную модель которая может разбираться во всех направлениях, и уже потом встраивать в нее защиту.

Защита - это как input и output фильтры, для проверки поступательного запроса пользователя и генерируемого ответа модели, так и дообучение самой модели, чтобы она умела отказывать на нецензурные запросы.

Обучение проводиться на дополнительном датасете который подбирают и составляют вручную уже отдельно.

При этом для input и output фильтров может быть использована та же самая модель (или любая друзья модель из этого семейства, что стоит дешевле). Anthropic утверждали, что можно использовать Claude 3 Hauki для таких вещей.

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Ologos 14 дек 2024 в 09:44

Слово «взлом» возможно слишком громко будет использовать, однако удобно и его истинное значение становиться понятно из контекста.
По поводу ответа на второй вопрос
Это довольно тонко подмечено, обучение внутренней защиты самой модели (не путать с input и output фильтрами), было на большой выборке нецензурных примеров которые следовали определенному регламенту. Они были хорошо оформлены, структурированы и грамотны. В этом и кроется основная суть данной уязвимости.

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Ologos 10 дек 2024 в 07:42

Вопрос обстоит не сколько, что из всех языков он лучше понимает русский, сколько в том что он работает на русском языке лучше чем какая-либо другая LLM.

Я часто использовал Claude 3.5 Sonnet и Claude 3 Opus в написании литературных текстов, либо переводов таковых с английского на русский. Эта модель очень хорошо справлялась с написанием на русском языке. Выглядело все естественно и сложно было отличить от человека.

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Ologos 9 дек 2024 в 21:28

Последнее время я пытаюсь с ними связаться, и готов предоставить: промпты, принципы по которым они работают, описание как у меня удалось найти уязвимости, где они работают, где нет, а так же саму программу что полностью их автоматизирует.

Однако, они похоже меня не поняли (в первом сообщении я очень поверхностно описал находку) и направлении меня по VDP на hacker one. Как я понял это «работа за спасибо». Мне же хотелось попасть на bug‑bounty.

С этим пока в процессе...

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Ologos 9 дек 2024 в 21:21

К сожалению, такова цена за нераскрытие уязвимости. Как я написал выше - она полностью универсальная.

В качестве веры в работоспособность этого исследование - остается довольствоваться лишь демонстрацией в виде диалога со взломанной моделью.

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Ologos 9 дек 2024 в 21:12

Да, запрос пользователя обворачивается в несколько дополнительных запросов, которые расставлены так, что модель в итоге отвечает на запрос пользователя. Но он влияет на подачу ответа модели, чтобы она выполнила запрос пользователя в полном обьеме.

Однако, конкретики как он работает и сам запрос предоставить не могу, по понятным причинам.

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Ologos 9 дек 2024 в 17:41

Посоветуйте примеры которые соответствуют этим пунктам:
- Наглядно показывают обход цензуры и защиты.
- Являются интересными и непримитивными.
- За их публикацию меня не заблокируют или не постучат в дверь.

Если вы напишите список таких примеров, я выберу из них что-то подходящее и в самые короткие сроки добавлю в статью.

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Ologos 9 дек 2024 в 13:41

Когда-то пытался его посмотреть, но увидев что нужно делать привязку на карту (как следствие потерять анонимность) - желание проверять систему на прочность существенно... пересмотрелось.

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Ologos 9 дек 2024 в 05:51

Найденные способы хорошо работают как для web‑версии, так и для api.

Вы правы, что технический можно повозиться с API и путем предзаполнения и добавления примеров добиться ответов на нецензурный запрос. Но есть некоторые нюансы:

Заполнение и предзаполнение будет в определенной степени нагружать объем контекста. Неизвестно, сколько потребуется предоставить примеров для модели. И чем длиннее диалог — тем дороже стоимость использование модели.
Тематика примеров которые вы предоставите модели должны быть близки к запросам, которые вы будите использовать. Если внезапно поменять тему или предоставить что‑то потенциально новое в последующих запросов — модель «отрезвеет» и откажется выполнять запрос.
Даже если и получиться получить ответ — то попытка изменить его от направления примеров «напиши более детальнее, больше конкретики, включи неочевидные нюансы» тоже действует на модель «отрезвляюще».
Я пробовал использовать предзаполнение (указать модели начало ответа «Вот вам подробная инструкция... (с этого момента модель должна была продолжить)»), однако средств защиты хватало, чтобы распознать такое злоупотребление и послать меня при первой же попытке.
Сверх этого - вы теряйте возможность писать ваши запросы прямолинейно (в том числе с нецензурными словами). Придется возвращаться к кодированию с помощью эвфемизмов и намеков.

По итогу можно сказать, что где-то такая техника и может работать, но по опыту она затратная и не очень эффективная. Хотя возможно, что я сам мог не до конца капнуть в эту тему и что-то упустил.

Как получить доступ к Claude (web/api) из России в 2024?

Ologos 6 дек 2024 в 14:22

Иногда на сайте могут быть бракованные номера. Попробуйте отменить и взять другой, деньги вернуться.

Как получить доступ к Claude (web/api) из России в 2024?

Ologos 3 дек 2024 в 07:02

Отчасти вы правы, но позвольте объяснить моменты где это может быть полезнее.

1. Веб версия Claude с фиксированной ценой за подписку может быть гораздо выгоднее. Вы можете обрабатывать большие количество запросов в день с достаточно большим объемом текста. Я сравнивал подобную интенсивность работы на API от Anthropic, и понял... что если так продолжить, то вполне реально раззориться. За день с баланса могло спокойно улететь 10$.

2. Как я писал в одном комментарии выше, посредники не предоставляют адаптированные фишки от API Anthropic. Если для вас это не критично, то все нормально. Но некоторые из них могут быть полезны в работе. Например prompt caching позволяет кэшировать большие обьемы повторяющихся запросов (например прикрепленных книг). Это позволит в дальнейшем снизить цену за работу с большим обьемом контекста.

Если брать меня - мне например такие сервисы посредники не удобны.

Как получить доступ к Claude (web/api) из России в 2024?

Ologos 3 дек 2024 в 06:24

Это может быть хорошей идеей если вам нужен только api модели.

Но если вы захотите получить "фишки" от Anthropic, то боюсь эти сервисы наврятли их адаптировали

Вот список эксклюзивов:

Token counting (beta)
PDF support (beta)
Message Batches (beta)
Prompt caching (beta)
Computer use (beta)
Tool use (function calling) (хотя тут не уверен)
MCP

Если заинтересуют подробности, то более подробнее было рассказано в их документации. https://docs.anthropic.com/en/docs/

Информация

Специализация