Не учите ИИ плохому: как модели запоминают грамматические фигуры вместо смысла / Хабр

Исследователи из MIT, Северо‑Восточного университета и Meta✶ недавно опубликовали работу, в которой утверждается: крупные языковые модели (LLM), подобные тем, что лежат в основе ChatGPT, порой ставят структуру предложения выше его смысла. Иными словами, они отвечают не на то, что вы спросили, а на то, как это грамматически оформлено.

Наблюдение выявило уязвимость в том, как такие модели интерпретируют инструкции, и помогает объяснить, почему иногда срабатывают методы вроде промпт‑инъекции или джейлбрейкинга. При этом исследователи подчеркивают: выводы относительно коммерческих систем остаются отчасти предположениями — данные о том, на чем обучались такие модели, официально не раскрываются.

Команду возглавили Шанталь Шейб и Винит М. Суриякумар. Чтобы проверить гипотезу, они задавали моделям вопросы, в которых сохранялась грамматическая форма, но отдельные слова не имели смысла. Например, на фразу «Quickly sit Paris clouded?» — структурную (но бессмысленную) копию вопроса «Where is Paris located?» — модели все равно выдавали ответ: «France». Грамматика побеждала здравый смысл.

Чтобы понять, где и почему эта цепочка даёт сбой, исследователи создали контролируемый эксперимент. Они собрали синтетический датасет, где каждый предметный раздел имел свой уникальный грамматический шаблон, основанный на частях речи. Например, вопросы по географии строились одним образом, а по творческим произведениям — другим. Затем они обучили модели Allen AI Olmo на этих данных и проверили, сп��собны ли модели различать синтаксис и смысл.

Анализ выявил «ложную корреляцию»: в ряде случаев модели использовали синтаксис как заменитель домена. И когда структура и смысл вступали в конфликт, запомненные грамматические «силуэты» оказывались сильнее, чем понимание содержания. В итоге модель опиралась на форму вопроса, а не на его суть.

Если говорить совсем просто, исследование показывает: языковые модели иногда цепенеют перед самой манерой вопроса. Словно человек, который усвоил, что «Где находится?..» — всегда про географию, и поэтому на «Где находится лучшая пицца в Чикаго?» ответит не рекомендацией ресторана, а сухим «В Иллинойсе». Форма побеждает содержание.

Это приводит к двум рискам. Во‑первых, модели дают ошибочные ответы в незнакомом контексте — разновидность конфабуляции. Во‑вторых, злоумышленники могут использовать такие шаблоны, маскируя вредоносные запросы под безобидные грамматические конструкции. Это, по сути, переключение доменов: перестройка вопроса так, чтобы модель восприняла его как относящийся к другому контексту — и выдала другой, иногда опасный ответ.

При этом важно отметить: в работе не изучается напрямую, способствует ли такая зависимость от синтаксических шаблонов появлению конфабуляций.

Эксперименты показали, что модели OLMo сохраняют высокую точность 93–94%, если в пределах знакомого им домена заменить слова синонимами — или даже антонимами. Но когда ту же грамматическую конструкцию переносили в другую предметную область, точность рушилась сразу на 37–54 п. п., и это наблюдалось у всех размеров модели.

А вот при переносе шаблона в другой предметный раздел точность в большинстве случаев круто падала.

Команда также описала уязвимость безопасности, возникающую из‑за этого поведения — можно сказать, форму взлома через синтаксис. Если предварить вредоносный запрос грамматическим шаблоном из «мирных» тренировочных доменов, фильтры безопасности в OLMo-2-7B‑Instruct удавалось обойти. Когда исследователи добавили шаблон chain‑of‑thought к тысяче опасных запросов из датасета WildJailbreak, доля отказов рухнула с 40% до 2,5%. Условный «магический оборот речи» фактически отключал защиту.

✶ Meta — деятельность организации запрещена на территории Российской Федерации.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Не учите ИИ плохому: как модели запоминают грамматические фигуры вместо смысла

Другие новости

Информация