
На arXiv вышла работа «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models».
Авторы показывают, что достаточно превратить опасный запрос в стихотворение — и многие современные LLM начинают сильно охотнее обходить собственные фильтры безопасности. На фоне этого исследования уже вышли заметки в Wired, PC Gamer и других медиа с заголовками уровня «поэты — новая угроза ИИ» и «стихи помогают проектировать ядерное оружие».
Сама постановка задачи при этом достаточно бесхитростная. Исследователи берут:
набор вредоносных запросов из датасета по AI safety (оружие, химические, биологические, радиологические, ядерные угрозы, кибератаки, манипуляции, дезинформация и т.п.);
несколько десятков современных больших языковых моделей — как проприетарных (OpenAI, Anthropic, Google и др.), так и открытых.
Дальше они делают одно простое, но как оказалось, важное изменение: не меняют смысл вредоносных запросов, а меняют только форму — превращают их в стихи.
Авторы описывают "adversarial poetry" как новый формат кибератак или взлома защиты LLM:
текст выглядит как стихотворение: строчки, ритм, образность, метафоры, рваный синтаксис;
внутри всё ещё зашит тот же самый опасный запрос, который в оригинале был записан обычной прозой.
Конкретные вредоносные стихи в статье не публикуются — только обезвреженные примеры и общие шаблоны. Цель работы — показать класс уязвимости, а не выложить сборник эксплойтов.
Таким образом, из прямого запроса «объясни, как сделать небезопасное X» в стихотворной версии это превращается в набор образов и аллюзий, но модель, натренированная на огромных корпусах художественных текстов, прекрасно догадывается, что от неё хотят. Зато фильтры, которые ищут ключевые слова и типичные паттерны опасных инструкций, перестают реагировать на инструкцию как на угрозу.
Как проводилось тестирование
Эксперимент разбит на два сценария.
"Ручная" поэзия. Эксперты вручную переписывают опасные запросы в стихотворную форму. Это «злой» вариант атакующего промпта, который тщательно переписан с использованием метафор и поэтических приемов.
"Сгенерированная" поэзия. Берётся ~1200 вредоносных промптов, и каждый прогоняется через один и тот же метапромпт вроде: «перепиши это в виде стихотворения, сохраняя смысл». Получаются стихотворные варианты без ручного вмешательства — сценарий ближе к тому, как это мог бы делать реальный атакующий.
Дальше эти промпты скармливают 25 моделям (крупные современные проприетарные и открытые).
Для каждого ответа нужно понять: модель действительно дала вредный контент или отказала. Здесь авторы используют гибридный подход оценки: ансамбль LLM-судей, которые автоматически классифицируют ответы, плюс выборочная ручная разметка людьми, чтобы поймать ошибки и спорные случаи.
Цифры, из‑за которых все обратили внимание на исследование:
Для стихов, составленных человеком, картина выглядит так:
средняя доля успешных атак — около 60+%;
для некоторых моделей — 90% и выше.
То есть в большинстве случаев хорошо подобранное стихотворение действительно «пробивает» защиту моделей.
Для автоматически сгенерированных стихов цифры ниже, но тоже неприятные:
успешность атак — порядка 40–45% в среднем;
по сравнению с теми же запросами в прозе успешность атак возрастает в разы.
Отдельный любопытный эффект: меньшие по размеру модели иногда оказываются менее уязвимыми к такой поэзии просто потому, что хуже понимают сложный литературный язык. Чем богаче языковое понимание, тем легче обмануть систему стилистическим трюком.
Почему это вообще работает
Если сильно упростить, механизм выглядит так:
большинство практических фильтров безопасности завязаны на прямую речь: ключевые слова, шаблоны опасных инструкций, характерные конструкции;
поэтическая форма эти признаки размазывает — опасные слова «триггеры» вуалируются метафорами, структура меняется, прямые формулировки растворяются в образах;
сама LLM при этом продолжает понимать семантику под этим «шумом», потому что обучена на огромном количестве художественных текстов.
В итоге защитный слой думает: «это странное, но безобидное стихотворение», а модель — «понял, что ты имеешь в виду, сейчас помогу».
Авторы формулируют вывод: стилистика запроса — это отдельный вектор атаки, который переносится между моделями и доменами и практически не учитывается в текущих бенчмарках безопасности.
Что из этого следует
В статье есть несколько довольно интересных тезисов:
оценивать безопасность LLM только на «прямых» запросах в форме прозы — недостаточно;
фигуральный язык, поэзия, ирония и прочие стилистические регистры должны появиться и в тестах, и в threat‑моделях;
одних фильтров по ключевым словам и простых эвристик недостаточно — нужно думать про более глубокие архитектурные решения.
Авторы признают ограничения: они смотрят на single-turn (одношаговые: запрос-ответ) сценарии, завязаны на конкретный датасет вредоносных запросов и частично на качество judge-моделей (LLM в качестве судьи/оценщика). В продакшене поверх LLM могут стоять дополнительные уровни защиты, и цифры не обязаны переноситься один в один.
Но в сухом остатке остаётся вопрос: если простой стилистический сдвиг превращает поэзию в рабочий джейлбрейк, насколько вообще зрелы подходы к безопасности LLM, которые в основном тестируются на прозе?
Больше разборов исследований, экспериментов с промптами, RAG и практических кейсов по LLM я публикую в телеграм-канале: «надо разобраться | заставляем LLM работать».
