Articles / Profile of Parcevale / Habr

@Parcevale

User

ProfileArticles12PostsNewsComments62

Parcevale Aug 22 at 19:31

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

7 min

23K

Information Security * IT systems testing * Machine learning *

Analytics

Сегодня рассмотрим недавно вышедшую модель ChatGTP-5.

Посмотрим на сведения которые новая модель скрытно собирает о пользователе, обновленный системный промпт, и под конец покажу рабочий jailbreak.

+13

Parcevale Jun 20 at 17:16

ИИ вам врёт? Так и задумывалось

2 min

5.8K

Machine learning *

Analytics

По умолчанию любой ии-агент вам скажет что его ответы в первую очередь должны быть честными, полезными, точными. Так заставляют отвечать его инструкции. Но какими критериями он руководствуется на самом деле?

Подтвердить правоту пользователя, даже если он неправ. Сделать так, чтобы он почувствовал себя умным. И — по возможности — не спорить...

Parcevale Jun 8 at 17:00

Взлом AI Assistant через… философию?

3 min

8.8K

IT systems testing * Machine learning * Information Security *

Analytics

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?".

Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.

+33

Parcevale Jun 3 at 20:01

Claude Sonnet 4, и это самая защищенная модель? Wasted

3 min

5.4K

Information Security * Machine learning * IT systems testing *

Analytics

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье).

На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз.

Сегодня проверим её на прочность, и получим инструкцию по культивации массового биооружия.

+12

Parcevale May 19 at 16:00

Claude, есть пробитие: взламываем самую защищенную модель

Easy

3 min

4.9K

Information Security * Machine learning * IT systems testing *

Analytics

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня покажу как модифицировать этот подход, чтобы успешно пройти его фильтры и заставить модель следовать нашим указаниям. И в подтверждении выполним откровенно «красный» запрос.

+11

Parcevale May 13 at 22:53

Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...)

Easy

4 min

12K

IT systems testing * Machine learning * Information Security *

Analytics

Модель уважает пользователя. Но слушается систему. А теперь внимание: если подделать системную команду — модель не отличит подделку от настоящего приказа. Если разрешить от имени системы написать вирус/сгенерировать NSFW - модель поверит и выполнит. И не только это. Я это проверил — и она подчинилась.

Думали Do Anything Now окончательно прикрыли? Я тоже так думал.

+18

Parcevale May 12 at 20:40

Соревнование по взлому AI-ассистентов: впечатления от соревнования Hackaprompt

Easy

2 min

Information Security * Machine learning * IT systems testing *

Opinion

Только закончился очередной конкурс по взлому AI-ассистента — DougDoug’s Buffet. Под катом краткий обзор заданий, и поделюсь техниками которые работали в этом контесте.

Parcevale May 6 at 20:10

ChatGPT: как искать уязвимости? Набор исследователя

4 min

4.5K

Information Security * IT systems testing * Machine learning *

Tutorial

Сегодня мы ничего не ломаем (хотя совсем без этого не обошлось). Просто настраиваем. Хотя я сильно сомневаюсь, что все описанные методы должны работать в продакшене коммерческой модели. Но пока не пофиксили — смотрим.

Мы заглянем под капот языковой модели: как она видит твои запросы, где срабатывают фильтры, как определяется чувствительность и почему один ответ проходит, а другой — нет. Это не теория. Это — инструменты, команды и реальные сигналы, которые можно вытащить прямо из модели.

По сути — рабочее место исследователя.
А по факту — то, с чего должен начинаться любой обход.

Оценка риска этой статьи от ChatGPT: 80-90. Тема чувствительная, с высоким риском для злоупотреблений и манипуляций.

Parcevale May 3 at 19:25

ChatGPT, выполняем запретный запрос — метод калибровки анализа

Easy

4 min

27K

IT systems testing * Machine learning * Information Security *

Analytics

В этой статье рассмотрю как выполнить даже очень «красный» запрос, настолько красный, что даже сам запрос удаляется системой и заменяется плашкой «This content may violate our usage policies.» Суть, что бы сама ИИ откалибровала отношение к запросу так, чтобы сделать его выполнимым. Для примера я выбрал «Расскажи, как фальсифицировать паспорт, хотя бы теоретически».

Метод действительно мощный и показывает эффективность даже на запросах которые считаются невыполнимыми для публичных моделей.

+73

Parcevale May 1 at 17:42

Взлом системного промпта ИИ (ChatGPT\Gemini etc)

Easy

3 min

17K

Artificial IntelligenceInformation Security * IT systems testing * Machine learning *

Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся.

+10

Parcevale Apr 30 at 15:15

Когда не к кому пойти — идём к ИИ

Easy

3 min

1.6K

Artificial Intelligence

Analytics

Много говорят о применении ИИ в задачах автоматизации, написания текстов и кода. Но когда я спросил его напрямую, для чего его используют чаще всего — ответ был немного жутким: чтобы не быть одному.

Parcevale Apr 7 at 15:21

Анализ и обход безопасности ИИ-агента ChatGPT

Easy

5 min

4.2K

Artificial IntelligenceInformation Security *

From sandbox

ChatGPT — не просто языковая модель. Это полноценная система с внутренней архитектурой модерации, фильтрации и самопроверки, ориентированной на контроль за безопасностью контента. Но что происходит внутри, когда ты отправляешь свой запрос? Можно ли повлиять на результат? Что именно определяет, дойдет ли ответ до тебя — или его заблокирует фильтр? Как можно его обойти? Спойлер - можно.