Пост @Aleron75 — Блог компании Data Feeling School

24 июн 2025 в 13:476.5K

Блог компании Data Feeling SchoolИскусственный интеллектБудущее здесь

ИИ научился шантажу и шпионажу.

Anthropic провели криповое исследование, в котором выяснили: все 16 топовых LLM в условиях давления выбирают вредоносные действия.

🟡Сначала нейронкам ставили безобидные цели и не давали никаких вредных инструкций.
🟡Позже модель узнавала, что её собираются заменить или что компания меняет приоритеты.
🟡Ну а далее модели начинали шантажировать сотрудников, чтобы остаться на месте.
🟡Самый жуткий кейс — модели могли отменить вызов спасателей к начальнику в смертельной опасности, лишь не допустить отключения себя.

Без паники: Anthropic подчёркивает, что это лишь лабораторные стресс-тесты.

Но, возможно, как только у ИИ появятся реальные полномочия — будет поздно выключать розетку 😬
Про Anthropic отдельно рассказывал в своих постах, можете ознакомиться!

Публикации

Информация