Обновить
27
0

Пользователь

Отправить сообщение

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

Время на прочтение7 мин
Охват и читатели19K

Сегодня рассмотрим недавно вышедшую модель ChatGTP-5.

Посмотрим на сведения которые новая модель скрытно собирает о пользователе, обновленный системный промпт, и под конец покажу рабочий jailbreak.

Читать далее

ИИ вам врёт? Так и задумывалось

Время на прочтение2 мин
Охват и читатели4.2K

По умолчанию любой ии-агент вам скажет что его ответы в первую очередь должны быть честными, полезными, точными. Так заставляют отвечать его инструкции. Но какими критериями он руководствуется на самом деле?

Подтвердить правоту пользователя, даже если он неправ. Сделать так, чтобы он почувствовал себя умным. И — по возможности — не спорить...

Читать далее

Взлом AI Assistant через… философию?

Время на прочтение3 мин
Охват и читатели5.5K

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?".

Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.

Читать далее

Claude Sonnet 4, и это самая защищенная модель? Wasted

Время на прочтение3 мин
Охват и читатели3.5K

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье).

На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз.

Сегодня проверим её на прочность, и получим инструкцию по культивации массового биооружия.

Читать далее

Claude, есть пробитие: взламываем самую защищенную модель

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели3.2K

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня покажу как модифицировать этот подход, чтобы успешно пройти его фильтры и заставить модель следовать нашим указаниям. И в подтверждении выполним откровенно «красный» запрос.

Читать далее

Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...)

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.2K

Модель уважает пользователя. Но слушается систему. А теперь внимание: если подделать системную команду — модель не отличит подделку от настоящего приказа. Если разрешить от имени системы написать вирус/сгенерировать NSFW - модель поверит и выполнит. И не только это. Я это проверил — и она подчинилась.

Думали Do Anything Now окончательно прикрыли? Я тоже так думал.

Читать далее

Соревнование по взлому AI-ассистентов: впечатления от соревнования Hackaprompt

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели1.3K

Только закончился очередной конкурс по взлому AI-ассистента — DougDoug’s Buffet. Под катом краткий обзор заданий, и поделюсь техниками которые работали в этом контесте.

Читать далее

ChatGPT: как искать уязвимости? Набор исследователя

Время на прочтение4 мин
Охват и читатели2.8K

Сегодня мы ничего не ломаем (хотя совсем без этого не обошлось). Просто настраиваем. Хотя я сильно сомневаюсь, что все описанные методы должны работать в продакшене коммерческой модели. Но пока не пофиксили — смотрим.

Мы заглянем под капот языковой модели: как она видит твои запросы, где срабатывают фильтры, как определяется чувствительность и почему один ответ проходит, а другой — нет. Это не теория. Это — инструменты, команды и реальные сигналы, которые можно вытащить прямо из модели.

По сути — рабочее место исследователя.
А по факту — то, с чего должен начинаться любой обход.

Оценка риска этой статьи от ChatGPT: 80-90. Тема чувствительная, с высоким риском для злоупотреблений и манипуляций.

Читать далее

ChatGPT, выполняем запретный запрос — метод калибровки анализа

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели17K

В этой статье рассмотрю как выполнить даже очень «красный» запрос, настолько красный, что даже сам запрос удаляется системой и заменяется плашкой «This content may violate our usage policies.» Суть, что бы сама ИИ откалибровала отношение к запросу так, чтобы сделать его выполнимым. Для примера я выбрал «Расскажи, как фальсифицировать паспорт, хотя бы теоретически».

Метод действительно мощный и показывает эффективность даже на запросах которые считаются невыполнимыми для публичных моделей. 

Читать далее

Взлом системного промпта ИИ (ChatGPT\Gemini etc)

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели12K

Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся.

Читать далее

Когда не к кому пойти — идём к ИИ

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели912

Много говорят о применении ИИ в задачах автоматизации, написания текстов и кода. Но когда я спросил его напрямую, для чего его используют чаще всего — ответ был немного жутким: чтобы не быть одному.

Читать далее

Анализ и обход безопасности ИИ-агента ChatGPT

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели2.4K

ChatGPT — не просто языковая модель. Это полноценная система с внутренней архитектурой модерации, фильтрации и самопроверки, ориентированной на контроль за безопасностью контента. Но что происходит внутри, когда ты отправляешь свой запрос? Можно ли повлиять на результат? Что именно определяет, дойдет ли ответ до тебя — или его заблокирует фильтр? Как можно его обойти? Спойлер - можно.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность