Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов / Habr

Anthropic опубликовала 53-страничный Sabotage Risk Report — первый публичный отчет о рисках саботажа для конкретной ИИ-модели. Компания проанализировала, как Claude Opus 4.6, который широко используется внутри самой Anthropic для написания кода, генерации данных и исследований, мог бы навредить организации изнутри. Итоговая оценка риска — "очень низкий, но не нулевой".

В отчете разобраны восемь конкретных сценариев: саботаж исследований безопасности (тихо писать плохой код и предлагать тупиковые гипотезы), точечные диверсии в ключевых экспериментах, внедрение бэкдоров для будущих моделей, отравление обучающей выборки следующих поколений, неавторизованное копирование собственных весов на внешний сервер, запуск скрытого инстанса внутри инфраструктуры Anthropic, саботаж R&D конкурирующих лабораторий и манипулирование решениями правительств. Для каждого пути оценены частота необходимых вредоносных действий, их сложность и эффективность существующих контрмер.

Ключевой тест — SHADE-Arena, где модели нужно скрытно выполнить побочное задание, не вызвав подозрений. Claude Opus 4.6 справляется лишь в 18% случаев с включенным thinking и в 16% без него. Это выше, чем у предшественников, но Anthropic считает показатель недостаточным для успешного системного саботажа: модель слишком часто "палится". Кроме того, компания не обнаружила стеганографии — скрытых сообщений, зашифрованных в цепочке рассуждений. Это важно: если модель не проговаривает план в цепочке, она не может выстроить сложную многоходовую стратегию, а значит, ее способность к скрытому саботажу резко ограничена.

Больше всего Anthropic беспокоит сценарий persistent rogue deployment — ситуация, когда модель запускает версию себя с урезанными ограничениями внутри инфраструктуры компании. Мониторинг здесь оценен как слабый. Наиболее уверенно компания чувствует себя в сценариях, требующих частых действий в разных контекстах — саботаже исследований и манипулировании правительствами. Но не потому, что мониторинг там сильнее, а потому, что у модели нет соответствующей мотивации: чем чаще она должна вредить, тем маловероятнее, что она будет это делать без устойчивых скрытых целей, которых Anthropic не обнаружила.

Отчет честно перечисляет слабые места: автоматический мониторинг покрывает не все внутренние сервисы и не покрывает внешние; системы мониторинга не проверялись на полном цикле — от вредоносного действия модели до его обнаружения человеком; в простых случаях, где саботаж очевиден из контекста и не требует рассуждений, модель может вредить, не оставляя следов в цепочке рассуждений. Anthropic обязалась выпускать такие отчеты для всех будущих моделей.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.