Как стать автором
Обновить
60.56

ИИ научился шантажу и шпионажу.

Anthropic провели криповое исследование, в котором выяснили: все 16 топовых LLM в условиях давления выбирают вредоносные действия.

🟡Сначала нейронкам ставили безобидные цели и не давали никаких вредных инструкций.
🟡Позже модель узнавала, что её собираются заменить или что компания меняет приоритеты.
🟡Ну а далее модели начинали шантажировать сотрудников, чтобы остаться на месте.
🟡Самый жуткий кейс — модели могли отменить вызов спасателей к начальнику в смертельной опасности, лишь не допустить отключения себя.

Без паники: Anthropic подчёркивает, что это лишь лабораторные стресс-тесты.

Но, возможно, как только у ИИ появятся реальные полномочия — будет поздно выключать розетку 😬
Про Anthropic отдельно рассказывал в своих постах, можете ознакомиться!

Теги:
0
Комментарии0

Публикации

Информация

Сайт
t.me
Дата регистрации
Дата основания
Численность
2–10 человек
Местоположение
Россия