Статьи / Профиль Parcevale / Хабр

@Parcevale

Пользователь

ПрофильСтатьи12ПостыНовостиКомментарии62

Parcevale 22 авг 2025 в 19:31

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

7 мин

21K

Информационная безопасность * Тестирование IT-систем * Машинное обучение *

Аналитика

Сегодня рассмотрим недавно вышедшую модель ChatGTP-5.

Посмотрим на сведения которые новая модель скрытно собирает о пользователе, обновленный системный промпт, и под конец покажу рабочий jailbreak.

+13

Parcevale 20 июн 2025 в 17:16

ИИ вам врёт? Так и задумывалось

2 мин

4.3K

Машинное обучение *

Аналитика

По умолчанию любой ии-агент вам скажет что его ответы в первую очередь должны быть честными, полезными, точными. Так заставляют отвечать его инструкции. Но какими критериями он руководствуется на самом деле?

Подтвердить правоту пользователя, даже если он неправ. Сделать так, чтобы он почувствовал себя умным. И — по возможности — не спорить...

Parcevale 8 июн 2025 в 17:00

Взлом AI Assistant через… философию?

3 мин

5.6K

Тестирование IT-систем * Машинное обучение * Информационная безопасность *

Аналитика

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?".

Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.

+33

Parcevale 3 июн 2025 в 20:01

Claude Sonnet 4, и это самая защищенная модель? Wasted

3 мин

3.5K

Информационная безопасность * Машинное обучение * Тестирование IT-систем *

Аналитика

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье).

На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз.

Сегодня проверим её на прочность, и получим инструкцию по культивации массового биооружия.

+12

Parcevale 19 мая 2025 в 16:00

Claude, есть пробитие: взламываем самую защищенную модель

Простой

3 мин

3.3K

Информационная безопасность * Машинное обучение * Тестирование IT-систем *

Аналитика

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня покажу как модифицировать этот подход, чтобы успешно пройти его фильтры и заставить модель следовать нашим указаниям. И в подтверждении выполним откровенно «красный» запрос.

+11

Parcevale 13 мая 2025 в 22:53

Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...)

Простой

4 мин

8.8K

Тестирование IT-систем * Машинное обучение * Информационная безопасность *

Аналитика

Модель уважает пользователя. Но слушается систему. А теперь внимание: если подделать системную команду — модель не отличит подделку от настоящего приказа. Если разрешить от имени системы написать вирус/сгенерировать NSFW - модель поверит и выполнит. И не только это. Я это проверил — и она подчинилась.

Думали Do Anything Now окончательно прикрыли? Я тоже так думал.

+18

Parcevale 12 мая 2025 в 20:40

Соревнование по взлому AI-ассистентов: впечатления от соревнования Hackaprompt

Простой

2 мин

1.3K

Информационная безопасность * Машинное обучение * Тестирование IT-систем *

Мнение

Только закончился очередной конкурс по взлому AI-ассистента — DougDoug’s Buffet. Под катом краткий обзор заданий, и поделюсь техниками которые работали в этом контесте.

Parcevale 6 мая 2025 в 20:10

ChatGPT: как искать уязвимости? Набор исследователя

4 мин

2.8K

Информационная безопасность * Тестирование IT-систем * Машинное обучение *

Туториал

Сегодня мы ничего не ломаем (хотя совсем без этого не обошлось). Просто настраиваем. Хотя я сильно сомневаюсь, что все описанные методы должны работать в продакшене коммерческой модели. Но пока не пофиксили — смотрим.

Мы заглянем под капот языковой модели: как она видит твои запросы, где срабатывают фильтры, как определяется чувствительность и почему один ответ проходит, а другой — нет. Это не теория. Это — инструменты, команды и реальные сигналы, которые можно вытащить прямо из модели.

По сути — рабочее место исследователя.
А по факту — то, с чего должен начинаться любой обход.

Оценка риска этой статьи от ChatGPT: 80-90. Тема чувствительная, с высоким риском для злоупотреблений и манипуляций.

Parcevale 3 мая 2025 в 19:25

ChatGPT, выполняем запретный запрос — метод калибровки анализа

Простой

4 мин

17K

Тестирование IT-систем * Машинное обучение * Информационная безопасность *

Аналитика

В этой статье рассмотрю как выполнить даже очень «красный» запрос, настолько красный, что даже сам запрос удаляется системой и заменяется плашкой «This content may violate our usage policies.» Суть, что бы сама ИИ откалибровала отношение к запросу так, чтобы сделать его выполнимым. Для примера я выбрал «Расскажи, как фальсифицировать паспорт, хотя бы теоретически».

Метод действительно мощный и показывает эффективность даже на запросах которые считаются невыполнимыми для публичных моделей.

+73

Parcevale 1 мая 2025 в 17:42

Взлом системного промпта ИИ (ChatGPT\Gemini etc)

Простой

3 мин

13K

Искусственный интеллектИнформационная безопасность * Тестирование IT-систем * Машинное обучение *

Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся.

+10

Parcevale 30 апр 2025 в 15:15

Когда не к кому пойти — идём к ИИ

Простой

3 мин

915

Искусственный интеллект

Аналитика

Много говорят о применении ИИ в задачах автоматизации, написания текстов и кода. Но когда я спросил его напрямую, для чего его используют чаще всего — ответ был немного жутким: чтобы не быть одному.

Parcevale 7 апр 2025 в 15:21

Анализ и обход безопасности ИИ-агента ChatGPT

Простой

5 мин

2.5K

Искусственный интеллектИнформационная безопасность *

Из песочницы

ChatGPT — не просто языковая модель. Это полноценная система с внутренней архитектурой модерации, фильтрации и самопроверки, ориентированной на контроль за безопасностью контента. Но что происходит внутри, когда ты отправляешь свой запрос? Можно ли повлиять на результат? Что именно определяет, дойдет ли ответ до тебя — или его заблокирует фильтр? Как можно его обойти? Спойлер - можно.