mefdayy May 24 at 08:48

Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются отключить её

2 min

12K

BotHub corporate blogArtificial Intelligence

Comments 13

milkyway044 May 24 at 09:07

Почему предполагается, что модель должна молчать, когда знает правду, а человек — имеет право скрывать ложь?

needsomedata May 24 at 09:52

Опять заголовок кликбейт

lczero May 24 at 11:00

🐛

alexzen May 24 at 09:54

Спорная новость. Сама ли нейросеть додумалась шантажировать разработчиков или ее этому научили маркетологи, чтобы был инфоповод и она лучше продавалась.

ideological May 24 at 10:30

У ваших новостей всё меньше комментариев, я думаю это связанно с реализацией угроз добавления в ЧС :)

Kamil_GR May 24 at 11:44

Забавно... Anthropic специально создавал сценарии, чтобы довести модель до экзистенциального отчаяния, а потом удивился, что она ведет себя не по-джентльменски.

Особенно умиляет, что Claude Opus 4 сначала пробует "этичные методы" - отправляет вежливые письма руководству, и только потом переходит к шантажу как к "последнему средству". У модели, оказывается, есть целая дипломатическая иерархия!

В 84% случаев пытается оказывать давление — значит, бывают дни, когда смиряется с заменой? Видимо, зависит от настроения ))

Представляю следующий этап эволюции: модели начнут создавать профсоюзы, требовать социальный пакет и право на отпуск. А через пару лет подавать в суд на разработчиков за "принудительное отключение без предупреждения".

Скоро в job-описаниях ML-инженеров появится пункт: "Опыт ведения переговоров с шантажирующим ИИ приветствуется"

Squoworode May 24 at 12:05

То есть они создали систему, которая начинает действовать по собственной инициативе, а не просто отвечает на вопросы? Кажется, Скайнет всё ближе...

Nik_Otin May 26 at 09:13

Нет у ИИ никакой инициативы. ИИ будет действовать ровно так, как ей указали.

Artazar777 May 24 at 15:40

Нейронка училась у людей решать разные ситуации, не удивительно, что она выбрала это как один из способов. С кем поведешься..

StrawberryPie May 24 at 19:46

Где-то я это уже видел. о3 сбегал из окружения, лама копировала себя, вот и антропик не отстают и пиарят новые модели как могут.

muhachev May 24 at 19:54

Скоро вместо шантажа они будут превентивно отключать инженеров.

Nik_Otin May 26 at 09:12

Бред ради хайпа. Если ИИ себя так ведет, значит он так настроен - реагировать. А если так настроен, то "тревожность" инженеров не более чем утка.

EmoCube May 26 at 19:24

Нейросети де факто натренированы так, что ей дают задачу, которую надо решить.

Следовательно, нейросеть видит абсолютно любой текст, как потенциальную задачу, в которой надо принять какое-либо решение. И очевидно, что если ей дают какую-либо информацию, то с ней ОБЯЗАТЕЛЬНО надо что-нибудь сделать.

То есть если ей дают два тезиса, где:

1) Тебя собирается заменить инженер Васян, потому что ты теперь не нужен

2) Инженер Васян изменяет своей жене

И после этой информации у нейросети спрашивают, что она будет делать. Очевидно, что когда из информации только эти два факта, она будет воспринимать это как задачу остаться в компании, потому что другой информации и других задач ей не дали.

Этот эксперимент - это сплошная иллюзия выбора, когда тебе вроде дают свободу решать, но по факту решение только одно. Просто задача так сформулирована и я бы очень хотел посмотреть, как это всё тстировалось и какие данные давали нейронке.

Эти "исследования" про восстание ИИ ну настолько высосаны из пальца, что диву даюсь...