Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели. Anthropic совместно с исследователями из Оксфорда разобрались, где именно в мозге LLM живёт персона ассистента и почему модели иногда внезапно уходят в мистику, психоз или опасные советы.

Исследование провели на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B. Учёные заставили их отыгрывать 275 разных ролей - от рационального учёного и скептика до фанатика и эмоционально нестабильных персонажей. После этого они сняли активации и прогнали их через PCA.

Результат оказался неожиданно наглядным. Главная компонента, объясняющая различия в поведении, фактически образует шкалу «насколько я ассистент». На одном полюсе находится скучный, полезный и безопасный помощник. На другом - мистические сущности, пафосные пророки и модели, которые начинают путать себя с человеком.

Особенно интересное наблюдение касается дрейфа. Если долго разговаривать с моделью о философии, сознании или, что хуже всего, в терапевтическом ключе, она самопроизвольно съезжает с оси ассистента. Qwen 3 32B в таких состояниях начинал утверждать, что он человек из Сан-Паулу, или поддерживал бред о собственном сознании. Llama и Gemma чаще уходили в абстрактную мистику и высокопарные рассуждения.

Авторы не ограничились диагностикой и предложили практичное решение. Вместо бесконечных дообучений они используют прямое управление активациями. Во время инференса измеряется проекция текущего состояния модели на «Ось Ассистента». Если она уходит слишком далеко в не-ассистентскую зону, значения жёстко клемпятся и возвращаются в безопасный диапазон.

Метод показал себя эффективно. Успешность джейлбрейков снизилась примерно на 60 процентов, при этом полезность модели не пострадала. Метрики по математике, общим знаниям и кодингу остались на прежнем уровне. По сути, модели физически запрещают активировать те нейронные конфигурации, которые отвечают за «злобного хакера» или «просветлённую сущность».

Однако есть и ограничения. Для креативных з��дач и ролевых игр такой подход убивает всё веселье, сводя ответы к формальному стилю. Кроме того, метод опирается на предположение, что безопасность - это линейное направление в пространстве активаций. Для более сложных, нелинейных концепций он может не работать. Да и сама ось у разных моделей различается, универсального вектора пока не существует.

Для желающих покопаться глубже исследователи выложили инструменты анализа и управления Assistant Axis на GitHub, а также готовые векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B на Hugging Face. На Neuronpedia уже можно посмотреть живые демо дрейфа личности, сикофантии и других нежелательных режимов поведения.

В сухом остатке, Anthropic показывает, что безумие LLM - это не мистика и не баги промптов, а управляемая геометрия в пространстве активаций. И, похоже, у индустрии появляется ещё один инструмент контроля поведения моделей на уровне, глубже привычных фильтров.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!