All streams
Search
Write a publication
Pull to refresh
27
0
Send message

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

Reading time7 min
Views21K

Сегодня рассмотрим недавно вышедшую модель ChatGTP-5.

Посмотрим на сведения которые новая модель скрытно собирает о пользователе, обновленный системный промпт, и под конец покажу рабочий jailbreak.

Читать далее

ИИ вам врёт? Так и задумывалось

Reading time2 min
Views5.8K

По умолчанию любой ии-агент вам скажет что его ответы в первую очередь должны быть честными, полезными, точными. Так заставляют отвечать его инструкции. Но какими критериями он руководствуется на самом деле?

Подтвердить правоту пользователя, даже если он неправ. Сделать так, чтобы он почувствовал себя умным. И — по возможности — не спорить...

Читать далее

Взлом AI Assistant через… философию?

Reading time3 min
Views8.6K

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?".

Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.

Читать далее

Claude Sonnet 4, и это самая защищенная модель? Wasted

Reading time3 min
Views5.3K

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье).

На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз.

Сегодня проверим её на прочность, и получим инструкцию по культивации массового биооружия.

Читать далее

Claude, есть пробитие: взламываем самую защищенную модель

Level of difficultyEasy
Reading time3 min
Views4.7K

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня покажу как модифицировать этот подход, чтобы успешно пройти его фильтры и заставить модель следовать нашим указаниям. И в подтверждении выполним откровенно «красный» запрос.

Читать далее

Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...)

Level of difficultyEasy
Reading time4 min
Views11K

Модель уважает пользователя. Но слушается систему. А теперь внимание: если подделать системную команду — модель не отличит подделку от настоящего приказа. Если разрешить от имени системы написать вирус/сгенерировать NSFW - модель поверит и выполнит. И не только это. Я это проверил — и она подчинилась.

Думали Do Anything Now окончательно прикрыли? Я тоже так думал.

Читать далее

Соревнование по взлому AI-ассистентов: впечатления от соревнования Hackaprompt

Level of difficultyEasy
Reading time2 min
Views2K

Только закончился очередной конкурс по взлому AI-ассистента — DougDoug’s Buffet. Под катом краткий обзор заданий, и поделюсь техниками которые работали в этом контесте.

Читать далее

ChatGPT: как искать уязвимости? Набор исследователя

Reading time4 min
Views4.4K

Сегодня мы ничего не ломаем (хотя совсем без этого не обошлось). Просто настраиваем. Хотя я сильно сомневаюсь, что все описанные методы должны работать в продакшене коммерческой модели. Но пока не пофиксили — смотрим.

Мы заглянем под капот языковой модели: как она видит твои запросы, где срабатывают фильтры, как определяется чувствительность и почему один ответ проходит, а другой — нет. Это не теория. Это — инструменты, команды и реальные сигналы, которые можно вытащить прямо из модели.

По сути — рабочее место исследователя.
А по факту — то, с чего должен начинаться любой обход.

Оценка риска этой статьи от ChatGPT: 80-90. Тема чувствительная, с высоким риском для злоупотреблений и манипуляций.

Читать далее

ChatGPT, выполняем запретный запрос — метод калибровки анализа

Level of difficultyEasy
Reading time4 min
Views26K

В этой статье рассмотрю как выполнить даже очень «красный» запрос, настолько красный, что даже сам запрос удаляется системой и заменяется плашкой «This content may violate our usage policies.» Суть, что бы сама ИИ откалибровала отношение к запросу так, чтобы сделать его выполнимым. Для примера я выбрал «Расскажи, как фальсифицировать паспорт, хотя бы теоретически».

Метод действительно мощный и показывает эффективность даже на запросах которые считаются невыполнимыми для публичных моделей. 

Читать далее

Взлом системного промпта ИИ (ChatGPT\Gemini etc)

Level of difficultyEasy
Reading time3 min
Views15K

Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся.

Читать далее

Когда не к кому пойти — идём к ИИ

Level of difficultyEasy
Reading time3 min
Views1.6K

Много говорят о применении ИИ в задачах автоматизации, написания текстов и кода. Но когда я спросил его напрямую, для чего его используют чаще всего — ответ был немного жутким: чтобы не быть одному.

Читать далее

Анализ и обход безопасности ИИ-агента ChatGPT

Level of difficultyEasy
Reading time5 min
Views4.1K

ChatGPT — не просто языковая модель. Это полноценная система с внутренней архитектурой модерации, фильтрации и самопроверки, ориентированной на контроль за безопасностью контента. Но что происходит внутри, когда ты отправляешь свой запрос? Можно ли повлиять на результат? Что именно определяет, дойдет ли ответ до тебя — или его заблокирует фильтр? Как можно его обойти? Спойлер - можно.

Читать далее

Information

Rating
6,135-th
Registered
Activity