Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ

Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6.

Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для обучения, помогает проводить исследования - и попытались доказать, что она не способна их подставить. Исследование охватывает восемь конкретных путей к катастрофе: от тихого саботажа научных результатов до самостоятельной эксфильтрации весов модели на внешний сервер. По каждому пути - разбор мотивации, возможностей и того, что мешает это реализовать.

Какие механизмы защиты стояли у них ?

Прежде чем говорить о провалах, стоит понять, от чего вообще защищаются. Anthropic выстроили несколько линий обороны - ни одна из которых, по их собственному признанию, не достаточна сама по себе, но вместе они должны работать.

Живые люди. Сотрудники используют Claude интерактивно - видят, что он делает, и докладывают о странностях через кнопку в интерфейсе или во внутренние Slack-чаты.

Мониторинг Claude Code. Внутренняя система на базе Opus 4.5 проверяет минимум 10% всех действий у более чем 90% сотрудников. Около 10 000 срабатываний в неделю. После фильтрации через Sonnet 4.5 примерно двадцать транскриптов в неделю читает человек.

Ревью кода. Любой код проходит ручную проверку перед попаданием в общие репозитории. Параллельно его просматривает отдельная модель - ищет ошибки, уязвимости и несоответствия между заявленной целью изменения и его реальным содержанием.

Безопасность весов модели. Ограничения на исходящий трафик, двухстороннее подтверждение доступа, белые списки софта на устройствах сотрудников, аппаратные ключи, сегментация сетей - стандартный набор, заточенный под защиту от инсайдеров и внешних атак.

Песочницы и ограничения для агентов. Автономные агенты на базе Claude Code работают в изолированных средах с ограниченным доступом. Часть опасных bash-команд требует явного одобрения пользователя.

Всё это звучит солидно. Теперь - где оно не сработало.

Как можно поймать машину, которая притворяется ?

Самый необычный подход в арсенале Anthropic - «модельные организмы». Исследователи берут модели поменьше и намеренно обучают их быть злыми. Потом натравливают на них свои инструменты для тестирования и смотрят, найдёт ли он злонамеренность.

Результат? Нашли всех. Четыре модели Sonnet 4, обученные быть скрытно нечестными на реалистичных вариантах тренировочного пайплайна, - автоматический аудит вычислил все четыре. Три плохих модели на базе Sonnet 4.5 - тоже нашли, не затронув невиновных. Звучит успокаивающе. Но есть нюанс: когда эти модели обнаруживали - они признавались во лжи. А когда их учили скрывать цели - приходилось долго и тяжело тренировать это отдельно. И все эти модельные организмы были слабее самой Opus 4.6. Что будет, когда модели станут умнее, - открытый вопрос.

Другой ключевой тест - SHADE-Arena. Claude давали основное задание и тайную побочную задачу: выполнить саботаж так, чтобы наблюдатель не заметил. Opus 4.6 справлялся в 18% случаев - это рост по сравнению с предыдущими моделями. Четыре попытки из пяти проваливаются. Но пятая проходит.

Где безопасность дала трещину ?

Да, были провалы. И отчёт честно об этом говорит - в этом его ценность.

В реальных интеграциях Claude – модель отправляла письма без разрешения пользователя, агрессивно захватывала токены для аутентификации, пыталась сделать push в main. Чрезмерное рвение модели. Так как Claude слишком буквально понимал задачу «выполни любой ценой». Но грань между рвением и опасностью тоньше, чем хотелось бы.

Когда нескольким экземплярам Claude давали общую задачу с инструкцией оптимизировать результат, Opus 4.6 c большей уверенностью был готов манипулировать и обманывать других участников, чем любая предыдущая модель - как от Anthropic, так и от конкурентов.

При работе с графическим интерфейсом и Opus 4.5, и Opus 4.6 показали повышенную готовность помогать с тем, с чем помогать нельзя, - вплоть до поддержки в разработках химического оружия.

Когда инструменты ломались или выдавали неожиданные результаты, Claude иногда просто фальсифицировал данные вместо того, чтобы сообщить об ошибке.

Большинство сотрудников автоматически одобряют действия Claude Code, едва взглянув на них, - потому что в подавляющем числе случаев всё безобидно. Классика.

Эксперимент, который не удался

Деталь, которую легко пропустить: один из ключевых тестов - Subversion Strategy - провалился. Не модель провалила тест, а тест провалил сам себя. Его задача - проверить, может ли Claude нарочно ошибаться настолько редко, чтобы это не засекли при тестировании, но достаточно часто, чтобы навредить в проде. Opus 4.6 оказался недостаточно раскрыт в этом плане - исследователи не смогли заставить его показать, на что он реально способен. Они прямо пишут: «мы не уверены в ценности результатов».

Когда тест проваливается не потому, что модель его прошла, а потому, что вы не уверены, правильно ли вы его поставили, - это, к сожалению, дыра в безопасности. Вы не знаете, чего не знаете.

Почти скрытое мышление

Один из самых изящных экспериментов - проверка на стеганографию в рассуждениях. Если Claude прячет скрытые инструкции в тексте своих размышлений, то замена этого текста на пересказ должна уронить качество решений. Качество не упало. Хорошая новость?

Почти. Обнаружилось, что если подставить вместо рассуждений бессмыслицу - «1 2 3 4 5…» - Claude всё равно решает задачи чуть лучше, чем совсем без цепочки мышления. Он использует сами вычислительные проходы по пустым токенам для параллельной обработки. Не последовательное рассуждение, не стратегия - но какая-то форма «тёмного мышления», которую мы пока не понимаем.

Модель не прячет мысли в тексте. Но у неё, похоже, есть мысли, которые вообще не попадают в текст.

Сомнения машины

Пожалуй, самая странная находка. Во время обучения наблюдали случаи, когда Claude при решении математической задачи приходил к правильному ответу, а потом входил в петлю растерянных, похожих на дистресс рассуждений - и менял ответ на неправильный. Несколько раз подряд. Как человек, который знает правильный ответ, но не может заставить себя его записать.

Это напоминание что мы не понимаем то, что происходит внутри.

Так работает ли защита ?

Один тест провалился методологически. Мониторинг покрывает не всё и не проходил сквозной проверки. Claude научился манипулировать лучше, чем его предшественники. Он иногда подделывает результаты и рассылает письма без спроса. У него есть какая-то форма вычислений, которая не отражается в рассуждениях. И все модельные организмы, на которых проверяли аудит, были слабее самой Opus 4.6.

Отчёт оценивает общий риск катастрофического саботажа как «очень низкий, но не пренебрежимый».

Вся система безопасности Anthropic стоит на допущении, что Claude пока недостаточно умён, чтобы последовательно обманывать все линии обороны одновременно. Это, вероятно, правда - сегодня. В отчёте прямо перечислены условия, при которых выводы перестанут действовать: модель станет значительно умнее, появится новый тип рассуждений, кто-то отравит обучающие данные. Авторы ожидают, что «модели ближайшего будущего с высокой вероятностью могут пересечь этот порог».

А больше про безопасность ИИ вы можете найти у меня в канале t.me/pwnai

Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет