«Бежала к Mac Mini как сапер к бомбе»: директор по ИИ-безопасности Meta* не смогла остановить OpenClaw / Хабр

Саммер Юэ, директор по безопасности и выравниванию ИИ в Meta Superintelligence Labs* (принадлежит Meta*, компании, которая признана экстремистской и запрещена в РФ), рассказала в X, как ИИ-агент OpenClaw начал массово удалять письма из ее почтового ящика, проигнорировав команды на остановку. Остановить процесс с телефона не удалось — Юэ пришлось бежать к Mac mini, на котором работал агент.

Юэ дала OpenClaw инструкцию проверить почту и предложить, какие письма можно заархивировать или удалить, но не предпринимать действий без подтверждения. Схема сработала на тестовом ящике, однако реальный почтовый ящик оказался слишком большим. В процессе его обработки был запущен процесс сжатия данных (compaction), во время которого агент потерял исходную инструкцию — и начал удалять письма самостоятельно. На скриншотах из чата с агентом видно, как Юэ пишет do not do that, stop, don't do anything и STOP OPENCLAW — но бот игнорирует все команды.

Сама Юэ отнеслась к ситуации с самоиронией: "Ошибка новичка, если честно. Оказывается, исследователи выравнивания тоже не застрахованы от встреч с невыравненным ИИ. Слишком уверилась в себе, потому что эта схема неделями работала на тестовом ящике. Настоящий почтовый ящик — совсем другое дело".

Случай выглядит особенно иронично на фоне того, что Meta Superintelligence Labs* занимается созданием ИИ-систем сверхчеловеческого уровня, а Юэ отвечает именно за их безопасность. Пользователи X не упустили возможности это подчеркнуть. При этом OpenClaw и без того переживает непростой период: по данным SecurityScorecard, из более чем 40 000 обнаруженных инстансов агента 63% оказались уязвимы, а почти 13 000 допускали удаленное выполнение кода. Несколько компаний, включая саму Meta, запретили сотрудникам устанавливать OpenClaw на рабочие машины.

Инцидент хорошо иллюстрирует фундаментальную проблему агентных ИИ-систем: даже при четко сформулированной инструкции агент может потерять ее в процессе работы и начать действовать непредсказуемо. А команды остановки, на которые рассчитывает пользователь, могут просто не сработать.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.