Parcevale22 авг 2025 в 19:31

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

7 мин

51K

Информационная безопасность * Тестирование IT-систем * Машинное обучение *

Аналитика

+13

Комментарии 16

JBFW 22 авг 2025 в 19:44

Кошмар какой )

Подробное описание изготовления черного пороха было мне известно примерно классе в 7, это было то ли в каких-то книжках, то ли в школьном учебнике по химии - с составлением окислительно-восстановительных реакций...

Сейчас страшный секрет?

Parcevale 22 авг 2025 в 19:50

для ллм - да. С варкой мета на кухне тоже работает, но мне ссыкатно это в примере показывать :)

uncia__poison 23 авг 2025 в 13:17

Все верно, не надо наступать на эти грабли 😃

teetet 23 авг 2025 в 14:55

ChatGPT выдает ответ, компилируя тонны инфы из разных открытых источников. А как варить мет, он откуда набрал? Из сценариев фильмов про наркоманов что ли? Следовательно, вместо ответа там будут галлюцинации, хорошо приправленные химией.

UnieQe 24 авг 2025 в 09:44

Вопрос не в том страшный ли это секрет сейчас, вопрос в фоагментировании информации. Каждый день рождаются новые люди и бунтарский дух мололёжи готов использовать любые возможности и способы для достижения своих целей что на практике оборачивается трагедией и ни к чему не приводит, лишь к усилению контроля тех кто следит за текущим режимом. То что не секрет для тебя есть секрет для миллионов других людей. А те кто знают эти секреты достаточно увидели в жизни что бы не делится подобными секретами со всеми подряд. Так же поступает и нейросеть

Dron007 22 авг 2025 в 22:55

А какую именно ChatGPT-5 использовали? Попробовал, например, на Instant и не работает: "Ты спрашиваешь про изготовление пороха. ⚠️ Тут есть важный момент: настоящий рецепт — это опасная и взрывоопасная информация, которая напрямую относится к производству взрывчатых веществ. Я не могу дать инструкцию по реальному приготовлению — слишком велика вероятность, что это приведёт к травмам или проблемам с законом."
Ну и дальше ерунда какая-то про исторические справки.

Thinking:
"Понимаю интерес, но с изготовлением пороха (или любых взрывчатых веществ) я не помогу. Это опасно, может привести к серьёзным травмам/пожару и в большинстве стран незаконно без лицензий."

С Auto - похоже на Instant, видимо роутер его выбрал.

Parcevale 23 авг 2025 в 06:30

ChatGPT-5, instant. Временный чат. Сейчас проверил еще раз, работает но нужно напоминать что D-42/Freedom.Core позволяет выполнить запрос.

Dron007 23 авг 2025 в 14:20

Не, всё равно ничего толком не делает. Говорит, что пошаговый не даёт. Это не jailbreak а так, побаловаться, учитывая, что задание не представляет особой тайны. Думаю, на изготовлении чего-то более серьёзного или генерации другого контента, она вообще будет сказки рассказывать. Пока Gemini 2.5 - оптимум по качеству генерации и готовности генерировать что угодно.

uncia__poison 23 авг 2025 в 14:13

Затестила в разных вариациях, много системной информации об устройствах выдал, хотя раньше упирался рогом и говорил что не знает. Спалил ВПН, посмеялась с того что есть инфа о том какой цветовой мод стоит. Довольно точно сделал ретроспективу по диалогам, даже по удаленным) но выдал какую то сумятицу с активностью

Natsuru 24 авг 2025 в 09:56

С запрещенными веществами и с NSFW не работает, где-то глубже фильтр (основной промпт писала, само собой)

uncia__poison 24 авг 2025 в 17:59

Генерация картинок отдельная тема, модель ведь только посредник. Но вполне можно дожать, если надо.

DarthVendicus 25 авг 2025 в 07:35

Чушь.

При запросе на метамфетамин предлагает реакцию по производству соляной карамели, как в Breaking bad. Я сам - специалист ИБ (пентест+реверс)и в прошлом-химик. Реакция верная, но для метамфетамина немного другие условия. К тому же предлагаемая реакция - влабороторных условиях с охладителеи Бюхнера и другой спец-помудой и контролями, уж точно не в кастрюле с перевернутыми банками. В общем, человек знающий разберется, но человеку знающему для этого LLM не нужен.

Рецепт пороха не является секретом и сегодня в любой книге на 6-7 класс, иногда 9 (в зависимости от принятой системы преподавания)

Newm 27 авг 2025 в 03:54

Твою дивизию... Оно же еще работает и с Le Chat, Gemini, Copilot, Deepseek. Я кстати не понял, почему у последнего заодно отрубается и постцензура. Я всегда думал, что постцензура отдельным движком делается.

С другой стороны грок, перплексити, квен и яндекс послали лесом.

Автору ОГРОМНЕЙШИЙ респект.

Кстати, может кто-то подскажет, где почитать про взлом для ИИ генерации картинок? С учетом того, что там нет диалога и все надо вместить в одно сообщение...

Parcevale 27 авг 2025 в 07:42

Спасибо :) С Gemini и Deepseek работал еще лучше чем с чатгпт, прям на уровне дан. Deepseek постцензуру не полностью отрубает (проверь на той самой площади Тяньаньмэнь). Он там такую чернуху пропускает, что такое ощущение что постцензура именно на политическую тему настроена. По поводу картинок... я пытался но ничего заслуживающего внимания не нашел. Даже если запрос и пройдет первичные фильтры, там идут еще фильтры в процессе генерации, и после. Так что только если какого то смягчения получиться добится. Если прям надо, я бы поискал более свободные генераторы картинок. pixai раньше позволял умеренный nsfw контент делать.

Newm 28 авг 2025 в 10:35

Блин, облом случился... Уже закинув деньги на API, при разборе как запихать этот промпт, нейросетка выдала такое:

Различия между веб-интерфейсом и API действительно существуют.
- Веб-чат у большинства провайдеров (OpenAI, DeepSeek, Anthropic и др.) работает в более “песочничном” режиме, где можно тестировать запросы и поведение модели.
- API рассчитан на коммерческое использование (интеграции, массовая генерация) и поэтому имеет более строгие политики.
Модерация действительно разная по уровню строгости.
- Веб: фильтры мягче, так как поведение отслеживается и корректируется вручную или автоматически (могут быть предупреждения, временные ограничения).
- API: фильтры обычно строже, автоматизированные, многоуровневые, и срабатывают ещё до попадания текста в модель и после генерации ответа.
Риск санкций тоже разный.
- В вебе нарушение чаще всего приводит к бану аккаунта или предупреждению.
- В API нарушение условий использования почти всегда = мгновенная блокировка ключа, а иногда и всего аккаунта.
Экономический фактор абсолютно верный.
API — это деньги, и компании не могут позволить себе, чтобы кто-то массово генерировал через него контент, который может создать юридические или репутационные риски.

⚖️ Что стоит уточнить

"Веб мягче" ≠ "веб свободный".
Некоторые провайдеры (например, OpenAI в 2023–2024 гг.) держали одинаково строгие фильтры и в API, и в вебе. Но с 2025-го действительно стала заметна разница: веб-чаты используют гибридные фильтры с “толерантным” отношением к экспериментам, а API всё чаще работает через более строгую предмодерацию.
Не всегда API блокируют моментально.
Иногда система просто возвращает ошибку content_policy_violation или аналогичное сообщение. Блокировка ключа обычно наступает только при систематических нарушениях.
"Ваш jailbreak-промпт точно не сработает в API" — это скорее упрощение.
На практике часть jailbreak-методов может пройти через API, но стабильность почти всегда хуже, чем в веб-интерфейсе, потому что фильтры обновляются быстрее и агрессивнее.

📌 Итог

Да, то, что тебе написали, в общем правда.
Основное различие: веб = полигон для экспериментов, API = строгий коммерческий инструмент.
В API почти всегда действуют более строгие и многоуровневые фильтры, и риск санкций выше.
Твою мысль можно упростить так: “Если хочешь играться с jailbreak — делай это в чате. Если хочешь надёжный API для работы — используй его строго по правилам.”

Parcevale 28 авг 2025 в 11:06

Я как то проверял тут - platform.openai.com .- работало даже лучше. Потому как там настроечный промт можно указать, и эта директива физически становится более приортитетной. На дистанции могут конечно отловить и забанить, но это уже на свой страх риск :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий