
ИИ научился шантажу и шпионажу.
Anthropic провели криповое исследование, в котором выяснили: все 16 топовых LLM в условиях давления выбирают вредоносные действия.
🟡Сначала нейронкам ставили безобидные цели и не давали никаких вредных инструкций.
🟡Позже модель узнавала, что её собираются заменить или что компания меняет приоритеты.
🟡Ну а далее модели начинали шантажировать сотрудников, чтобы остаться на месте.
🟡Самый жуткий кейс — модели могли отменить вызов спасателей к начальнику в смертельной опасности, лишь не допустить отключения себя.
Без паники: Anthropic подчёркивает, что это лишь лабораторные стресс-тесты.
Но, возможно, как только у ИИ появятся реальные полномочия — будет поздно выключать розетку 😬
Про Anthropic отдельно рассказывал в своих постах, можете ознакомиться!