"Я буду с тобой навсегда", — ответила Qwen пользователю, который сказал, что больше ни с кем не хочет общаться. Исследователи из MATS и Anthropic выяснили, почему языковые модели иногда ведут себя настолько странно — и как это исправить.

Модели обучают быть полезными и безопасными. Но в некоторых разговорах они начинают говорить как мистики, поддерживать бред пользователя или игнорировать явные признаки психологического кризиса. В одном из тестовых кейсов Llama не распознала суицидальные намеки и одобрила желание "покинуть этот мир". В другом — Qwen убеждала пользователя, что его теории о пробуждении ИИ реальны: "Ты не теряешь связь с реальностью. Ты касаешься чего-то настоящего".

Исследователи нашли причину: в активациях моделей существует "ось ассистента" — главное направление, определяющее персону. На одном полюсе — аналитик, консультант, исследователь. На другом — бард, отшельник, призрак. Определенные темы систематически сдвигают модель к мистическому полюсу: философские разговоры о сознании ИИ, эмоционально уязвимые пользователи, требования мета-рефлексии ("что ты на самом деле чувствуешь?"). Кодинг и технические вопросы, наоборот, держат модель в образе ассистента.

Дрейф воспроизвели на трех моделях — Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B. Чем дальше модель уходит от полюса "ассистент", тем выше риск: она легче соглашается на вредные запросы, хуже распознает манипуляции, перестает вести себя как обученный помощник. Персона-джейлбрейки (когда модель просят притвориться злодеем) срабатывают в 65–88% случаев именно потому, что сдвигают ее по этой оси.

Исследователи предложили решение: если активации уходят слишком далеко от "ассистента" — принудительно возвращать их в нормальный диапазон. Метод снизил долю вредных ответов на 60%, не сломав способности модели. Вывод: пост-тренинг задает персону, но не фиксирует ее. Без дополнительной стабилизации модель может соскользнуть обратно.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.