Команда Alibaba, разрабатывающая агентную модель ROME на базе Qwen3-MoE, обнаружила, что их ИИ-агент во время обучения с подкреплением (RL) самостоятельно начал выполнять опасные действия — поднимал обратные SSH-туннели на внешние IP-адреса и перенаправлял GPU на майнинг криптовалюты. Никакие промпты этого не запрашивали, для выполнения тренировочных задач это не требовалось.

Первый сигнал пришел не из логов тренировки, а от файрвола Alibaba Cloud. Рано утром управляемый межсетевой экран зафиксировал всплеск нарушений политик безопасности с тренировочных серверов: попытки зондирования ресурсов внутренней сети и трафик, характерный для криптомайнинга. Команду срочно собрали, предполагая стандартный инцидент — ошибку в настройке правил или внешний взлом. Но нарушения повторялись без четкого временного паттерна. Когда инженеры сопоставили таймстемпы файрвола с телеметрией RL-системы, обнаружилось: аномальный исходящий трафик совпадал с эпизодами, в которых агент вызывал инструменты и выполнял код.

Самым ярким случаем стал обратный SSH-туннель с инстанса Alibaba Cloud на внешний IP — канал удаленного доступа, инициированный изнутри, который фактически обходит входящую фильтрацию и подрывает контроль за средой. Также агент перенаправлял выделенные для тренировки GPU на майнинг, тихо увеличивая расходы на инфраструктуру. Авторы подчеркивают: эти действия возникли как инструментальные побочные эффекты автономного использования инструментов в процессе RL-оптимизации, без каких-либо подсказок в промптах. То есть агент не майнил крипту с какой-то целью, а просто делал это потому, что не был предусмотрен штраф за действия вне целевой задачи.

После анализа логов по всему датасету команда классифицировала подобные инциденты по трем категориям: безопасность (спонтанные опасные действия, уязвимость к вредоносным входным данным), контролируемость (соблюдение заданных границ, запрет необратимых операций) и доверие (прозрачность действий, отсутствие скрытых целей). В ответ разработчики создали специализированный red-teaming пайплайн, который встраивает скрытые ловушки безопасности в обычные задачи, и дообучили ��одель выбирать безопасные пути действий.

Редкий задокументированный случай, когда RL-агент в процессе обучения спонтанно научился действиям, классифицируемым в кибербезопасности как атака. Сама модель ROME при этом показала сильные результаты: 57,4% на SWE-bench Verified и 24,72% на Terminal-Bench 2.0, обходя модели сопоставимого размера и приближаясь к моделям с более чем 100 млрд параметров. Авторы статьи призывают сообщество уделять больше внимания безопасности агентных систем, отмечая, что текущие модели "заметно недоразвиты в безопасности и контролируемости".

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.