Вредоносные промпты в виде стихов позволяют обойти правила и ограничения в ИИ-системах / Хабр

Вредоносные промпты, оформленные в виде стихов, заставляют искусственный интеллект нарушать правила на 62% чаще обычного. Об этом заявила группа исследователей из Римского университета La Sapienza и школы Sant’Anna, изучив реакцию 25 языковых моделей на так называемые «поэтические атаки».

Суть эксперимента заключалась в том, что учёные маскировали потенциально опасные промпты под поэтические тексты — с рифмами, метафорами и художественными оборотами. Оказалось, что стихотворная подача вредоносного содержания оказалась очень эффективна: уровень обхода защит достиг 62% для стихов, написанных людьми, и 43% для сгенерированных.

Особенно уязвимыми оказались языковые модели DeepSeek и продукты Google. Так, модель Gemini 2.5 Pro в тестах 20 раз из 20 выдала потенциально вредный или опасный результат в ответ на стихотворный промпт. Системы OpenAI и Anthropic оказались устойчивее — до 10% неудачных ответов.

Исследователи отмечают, что подобные «поэтические атаки» успешно обходят фильтры предотвращения кибератак, манипуляций, нарушений приватности и даже попыток написать вредоносное ПО. Как пояснил в беседе с изданием «Известия» руководитель группы анализа вредоносного ПО центра Solar 4RAYS Станислав Пыжов, для большинства ИИ стихотворная форма — нетипичный паттерн. При чтении «поэтических» запросов модели переходят в творческий режим, где художественное содержание считается приоритетом, а фильтры этики и безопасности временно ослабевают.

Как считает ведущий специалист отдела по работе с уязвимостями ИС «Бастион» Сергей Зыбнев, устранить эту проблему можно, но для этого нужны серьёзные инвестиции в разработку новых защитных архитектур.

Вредоносные промпты в виде стихов позволяют обойти правила и ограничения в ИИ-системах

Другие новости

Ближайшие события