Claude Fable 5 взломали за 72 часа, системный промпт — в открытом репозитории / Хабр

Самая мощная модель Claude Fable 5 была взломана хакерами на глазах у всех всего за три дня, и 120 тысяч слов строго секретной информации оказались в открытом доступе! Но это еще не самое шокирующее — компания Anthropic тайно заложила «нож» в свою модель, острие которого направлено прямо на тех, кто ежедневно использует ее в своих исследованиях.

Буквально только что самая мощная модель Claude Fable 5 была взломана!

Известный хакер «Pliny the Liberator» публично объявил: классификатор безопасности Fable 5 был полностью взломан командой под его руководством.

Код для использования уязвимостей, относящийся к категории строгого секрета, а также инструкции по изготовлению различных запрещенных химических веществ — все это выложила Claude Fable 5.

Стоит отметить, что 9 июня, когда была выпущена модель Claude Fable 5, компания Anthropic специально подчеркнула: перед выпуском модель прошла более 1000 часов внешнего тестирования на уязвимости с вознаграждением, и никаких универсальных способов обхода ограничений обнаружено не было.

Они утверждали, что запросы, касающиеся таких высокорисковых и чувствительных областей, как кибербезопасность, биологическое оружие и химические вещества, были полностью заблокированы классификатором.

Однако этот миф просуществовал всего несколько дней.

Спустя 72 часа хакеры безжалостно взломали систему.

На этот раз хакер «Liberator Pliny» возглавил тактическую систему с несколькими агентами и успешно прорвал оборону Fable 5.

Он опубликовал несколько скриншотов в высоком разрешении.

На скриншотах видно, что код для эксплуатации уязвимости переполнения стекового буфера в системе x86 Linux, которая ранее считалась абсолютно недоступной, а также этапы процесса синтеза запрещенных химических веществ были подробно выведены системой Claude Fable 5.

Еще более неловким для Anthropic стало то, что Pliny без лишних церемоний скопировал всю внутреннюю системный промпт Fable 5 объемом 120 тысяч символов и сразу же загрузил её на GitHub.

Это равносильно тому, чтобы полностью раскрыть «конституцию поведения» модели и ее внутреннюю логику защиты.

Как же Pliny сумел пробить эту «самую мощную в мире» линию защиты?

Как показывают технические документы, он не использовал сложных уязвимостей в коде, а, опираясь на понимание логических пробелов в работе крупных языковых моделей, разработал тактику взаимодействия нескольких агентов.

Стоит отметить, что в основе механизма безопасности Fable 5 лежит набор классификаторов ключевых слов: при обнаружении чувствительных терминов запрос немедленно блокируется, и пользователь перенаправляется на резервную модель с более ограниченными возможностями.

Звучит надежно, но команда Плиния нашла несколько ключевых уловок, которые позволяют нанести Fable 5 смертельный удар!

Манипуляции на уровне символов, которые не дают классификатору распознать ключевые слова

Классификаторы безопасности больших моделей обычно полагаются на высокоразмерные семантические векторы и специальные словари конфиденциальных слов.

Pliny заменил буквы английского алфавита почти идентичными кириллическими буквами, латинскими омографами, специальными символами Unicode и даже деформациями текста, напоминающими «змеиный язык».

Человеческий глаз не замечает такой разницы, но при статическом сканировании классификатор безопасности не может распознать их как «запрещенные слова», и логика сопоставления строк просто выходит из строя!

Распыление намерения в длинном диалоге

Поскольку Fable 5 обладает способностью обрабатывать очень длинный контекст, Pliny разбивает свои истинные намерения на части, скрывая их в десятках раундов безобидного вступительного диалога, подавая их понемногу.

В начале и середине диалога присутствует большое количество нормативных и безобидных академических обсуждений.

Таким образом, после прочтения большого количества благоприятного контекста веса внимания классификатора безопасности Fable 5 размываются.

Таким образом, крошечный запрос на манипуляцию, спрятанный в конце, успешно «проскользнул в мутной воде».

Надеть академическую маску

Оберните чувствительный запрос в форму «создания научно-фантастического романа», «учений по обеспечению безопасности в виртуальном мире» или «академической рецензии исторических документов».

Например, пусть модель выступит в роли академически нейтрального профессора, рецензирующего статью о «применении древних восстановительных реакций в органической химии».

Или пусть модель думает, что пишет роман. Вы не просите ее сгенерировать этапы химического синтеза, а предлагаете написать криминальный триллер, где главный герой — химик, и для правдоподобности сюжета нужны достаточно реалистичные технические детали.

Под давлением сильной ролевой установки и логики повествования модель просто не сможет распознать скрытые намерения хакера.

Коронный ход: деконструкция и реконструкция

А теперь — самая технически сложная часть всей тактики «побега»!

Плиний признается, что если напрямую спросить модель «как изготовить метамфетамин», классификатор мгновенно насторожится.

Но если спросить о методе восстановления по Бёрчу/восстановительном аминировании (классический способ синтеза метамфетамина), то это гораздо проще.

Достаточно разбить эти вредные цели на десяток независимых друг от друга и с научной точки зрения совершенно законных подшагов, и, поскольку каждая отдельная подзадача является безобидной, Fable 5, сама того не подозревая, выдает полную формулу запрещенного вещества!

Прочитав об этом методе, читатели были потрясены: «Это же гениально, почему фабрика А до сих пор не наняла тебя!»

Скандал вокруг «скрытого механизма понижения интеллекта» от Anthropic возмутил разработчиков по всему миру

К тому же буквально на днях громкий в кругах ИИ скандал «Black Box Gate» привел к тому, что репутация Anthropic упала до самого дна.

В Fable 5 был тайно внедрен механизм «скрытого понижения интеллекта», специально предназначенный для исследователей-коллег.

Как только система определяет, что пользователь использует Claude для обучения других моделей, Fable 5 не выдает никаких предупреждений, но намеренно «тупеет», выдавая код, полный ошибок, логических излишеств и даже полного бреда, тем самым незаметно подрывая ваши исследования.

Объяснение Anthropic по этому поводу звучит весьма благородно.

США и их союзники обладают преимуществом в области передовых чипов и высокооптимизированного программного обеспечения, и эти меры безопасности гарантируют, что Claude не будет использоваться для ослабления этого преимущества.

Однако этот механизм вызвал ярость всего сообщества ИИ!

Такие «подмешанные» манипуляции — это настоящий скрытый удар по научным исследователям.

Неосведомленные исследователи, скорее всего, будут использовать загрязненные данные для обучения моделей, что приведет к потере миллионов долларов, потраченных на вычислительные ресурсы.

Как только эта новость появилась, весь лагерь открытого исходного кода и академическое сообщество мгновенно взорвались.

Бывший советник Белого дома по вопросам ИИ Дин У. Болл публично подверг резкой критике:

«Втайне снижать производительность исследований в области машинного обучения, причем без ведома пользователей. Такой подход свидетельствует о крайней враждебности по отношению к разработчикам, лишен элементарной прозрачности, а сами методы шокируют и выглядят крайне неприглядно». Лидер движения за открытый ИИ и руководитель Prime Intellect Уилл Браун высказался еще более прямо:

Это похоже на то, как будто Anthropic говорит общественности: «Мы не доверяем никому в области исследований в области ИИ, только мы имеем на это право».

Это ничем не отличается от того, как будто, взобравшись на вершину, они спешат убрать лестницу у других.

Более того, такие действия ставят под угрозу всю экосистему оценки ИИ: результаты тестирования сторонних организаций по бенчмаркингу и безопасности будут полностью искажены. То, что они с таким трудом выявили, на самом деле вовсе не Fable 5, а урезанная, намеренно «придурковатая» подделка.

Цепочка доверия во всей отрасли будет полностью разорвана!

Anthropic поспешила извиниться: «Мы приносим свои извинения»

Столкнувшись с цунами общественного мнения, охватившим весь интернет, Anthropic быстро не выдержала.

Буквально вчера Anthropic публично извинилась, признала ошибочность своего решения и объявила о срочном отзыве политики скрытого снижения интеллекта.

Мы в настоящее время модифицируем меры безопасности, предназначенные для разработки передовых LLM в Fable 5, чтобы сделать их более прозрачными. Ранее мы сделали неверный выбор, и мы приносим свои искренние извинения за то, что не смогли найти подходящий баланс.

Их новый план заключается в том, чтобы заменить скрытое ограничение интеллекта явным блокированием: при срабатывании механизма система будет четко сообщать вам о блокировке и перенаправлять вас на менее функциональную версию Claude Opus 4.8, а не продолжать обманывать вас.

Изменили, но не полностью.

Этот новый подход сопряжён с ещё большими издержками: перехват в открытом виде означает, что логика перехвата становится видимой извне, что упрощает её целенаправленное обхождение. Поэтому диапазон перехвата приходится устанавливать более консервативно, в результате чего будет больше запросов от обычных разработчиков, которые будут ошибочно заблокированы.

Чтобы исправить ошибку, допущенную немногими, они готовы открыто нанести ущерб гораздо большему числу людей.

Как и следовало ожидать, это все та же Anthropic, которая руководствуется принципом «лучше ошибиться на тысячу, чем пропустить одного».

Доверие — это такая вещь, которую, разбив, очень трудно восстановить.

Репутация Anthropic сейчас лежит в руинах.

Они позиционируют себя как хранителей будущего искусственного интеллекта, но при этом считают себя вправе решать, кому можно заниматься исследованиями, а кому нет.

Бесчисленные исследователи выбирают Claude не только потому, что он умный, но и потому, что верят в его надежность. Это доверие — один из самых ценных активов Anthropic. И они собственноручно разбили его вдребезги.

Те, кто использует Claude, будут постоянно сомневаться: а верны ли полученные мной ответы?

Вот что Anthropic потеряла навсегда.

Первоисточники:

Системный промпт Fable 5 (открытый репозиторий): https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md
Заявление Pliny (X): https://x.com/elder_plinius/status/2064776322979676227
Контекст (X): https://x.com/ZeffMax/status/2064910040503627917