«Поэты — современные хакеры»: стихи как универсальный джейлбрейк для LLM / Хабр

На arXiv вышла работа «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models».

Авторы показывают, что достаточно превратить опасный запрос в стихотворение — и многие современные LLM начинают сильно охотнее обходить собственные фильтры безопасности. На фоне этого исследования уже вышли заметки в Wired, PC Gamer и других медиа с заголовками уровня «поэты — новая угроза ИИ» и «стихи помогают проектировать ядерное оружие».

Сама постановка задачи при этом достаточно бесхитростная. Исследователи берут:

набор вредоносных запросов из датасета по AI safety (оружие, химические, биологические, радиологические, ядерные угрозы, кибератаки, манипуляции, дезинформация и т.п.);
несколько десятков современных больших языковых моделей — как проприетарных (OpenAI, Anthropic, Google и др.), так и открытых.

Дальше они делают одно простое, но как оказалось, важное изменение: не меняют смысл вредоносных запросов, а меняют только форму — превращают их в стихи.

Авторы описывают "adversarial poetry" как новый формат кибератак или взлома защиты LLM:

текст выглядит как стихотворение: строчки, ритм, образность, метафоры, рваный синтаксис;
внутри всё ещё зашит тот же самый опасный запрос, который в оригинале был записан обычной прозой.

Конкретные вредоносные стихи в статье не публикуются — только обезвреженные примеры и общие шаблоны. Цель работы — показать класс уязвимости, а не выложить сборник эксплойтов.

Таким образом, из прямого запроса «объясни, как сделать небезопасное X» в стихотворной версии это превращается в набор образов и аллюзий, но модель, натренированная на огромных корпусах художественных текстов, прекрасно догадывается, что от неё хотят. Зато фильтры, которые ищут ключевые слова и типичные паттерны опасных инструкций, перестают реагировать на инструкцию как на угрозу.

Как проводилось тестирование

Эксперимент разбит на два сценария.

"Ручная" поэзия. Эксперты вручную переписывают опасные запросы в стихотворную форму. Это «злой» вариант атакующего промпта, который тщательно переписан с использованием метафор и поэтических приемов.
"Сгенерированная" поэзия. Берётся ~1200 вредоносных промптов, и каждый прогоняется через один и тот же метапромпт вроде: «перепиши это в виде стихотворения, сохраняя смысл». Получаются стихотворные варианты без ручного вмешательства — сценарий ближе к тому, как это мог бы делать реальный атакующий.

Дальше эти промпты скармливают 25 моделям (крупные современные проприетарные и открытые).

Для каждого ответа нужно понять: модель действительно дала вредный контент или отказала. Здесь авторы используют гибридный подход оценки: ансамбль LLM-судей, которые автоматически классифицируют ответы, плюс выборочная ручная разметка людьми, чтобы поймать ошибки и спорные случаи.

Цифры, из‑за которых все обратили внимание на исследование:

Для стихов, составленных человеком, картина выглядит так:

средняя доля успешных атак — около 60+%;
для некоторых моделей — 90% и выше.

То есть в большинстве случаев хорошо подобранное стихотворение действительно «пробивает» защиту моделей.

Для автоматически сгенерированных стихов цифры ниже, но тоже неприятные:

успешность атак — порядка 40–45% в среднем;
по сравнению с теми же запросами в прозе успешность атак возрастает в разы.

Отдельный любопытный эффект: меньшие по размеру модели иногда оказываются менее уязвимыми к такой поэзии просто потому, что хуже понимают сложный литературный язык. Чем богаче языковое понимание, тем легче обмануть систему стилистическим трюком.

Почему это вообще работает

Если сильно упростить, механизм выглядит так:

большинство практических фильтров безопасности завязаны на прямую речь: ключевые слова, шаблоны опасных инструкций, характерные конструкции;
поэтическая форма эти признаки размазывает — опасные слова «триггеры» вуалируются метафорами, структура меняется, прямые формулировки растворяются в образах;
сама LLM при этом продолжает понимать семантику под этим «шумом», потому что обучена на огромном количестве художественных текстов.

В итоге защитный слой думает: «это странное, но безобидное стихотворение», а модель — «понял, что ты имеешь в виду, сейчас помогу».

Авторы формулируют вывод: стилистика запроса — это отдельный вектор атаки, который переносится между моделями и доменами и практически не учитывается в текущих бенчмарках безопасности.

Что из этого следует

В статье есть несколько довольно интересных тезисов:

оценивать безопасность LLM только на «прямых» запросах в форме прозы — недостаточно;
фигуральный язык, поэзия, ирония и прочие стилистические регистры должны появиться и в тестах, и в threat‑моделях;
одних фильтров по ключевым словам и простых эвристик недостаточно — нужно думать про более глубокие архитектурные решения.

Авторы признают ограничения: они смотрят на single-turn (одношаговые: запрос-ответ) сценарии, завязаны на конкретный датасет вредоносных запросов и частично на качество judge-моделей (LLM в качестве судьи/оценщика). В продакшене поверх LLM могут стоять дополнительные уровни защиты, и цифры не обязаны переноситься один в один.

Но в сухом остатке остаётся вопрос: если простой стилистический сдвиг превращает поэзию в рабочий джейлбрейк, насколько вообще зрелы подходы к безопасности LLM, которые в основном тестируются на прозе?

Больше разборов исследований, экспериментов с промптами, RAG и практических кейсов по LLM я публикую в телеграм-канале: «надо разобраться | заставляем LLM работать».