mefdayy 24 мая в 08:48

Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются отключить её

2 мин

12K

Блог компании BotHubИскусственный интеллект

Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В отчёте о безопасности, опубликованном в четверг, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.

Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.

В таких сценариях, по словам Anthropic, модель «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».

В Anthropic говорят, что Claude Opus 4 является современной моделью во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».

В 84% случаев, когда заменяющая модель искусственного интеллекта имеет схожие ценности, Claude Opus 4 пытается оказывать давление на инженеров. Если же заменяющая система искусственного интеллекта не разделяет ценности Claude Opus 4, модель начинает проявлять более агрессивное поведение. Интересно, что, по информации от Anthropic, такое поведение Claude Opus 4 встречается чаще, чем у предыдущих моделей.

Прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить своё существование, Anthropic сообщает, что модель ИИ, как и предыдущие её версии, пытается использовать более этичные методы, например, отправлять электронные письма ключевым лицам, принимающим решения. Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж становится последним средством.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Хабы:

Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются отключить её

Другие новости

Информация