timonin 18 дек 2024 в 08:05

Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

Простой

6 мин

11K

Блог компании Timeweb CloudИскусственный интеллектБудущее здесь

Обзор

+26

Комментарии 13

Tannenfels 18 дек 2024 в 09:10

tldr - Учёные изнасиловали журналиста?

timonin 18 дек 2024 в 10:57

Учёные изнасиловали большую языковую модель...

timonin 18 дек 2024 в 11:44

Если кто-то не помнит этот замечательный мем

Lev3250 20 дек 2024 в 19:30

О, это ещё с тех ламповых времён, когда Пикабу любил своих пользователей? Ээээхххх
Так-то они и сейчас любят, но есть нюанс..

Sneedmanc 18 дек 2024 в 11:31

Сначала снимают каждый первый фильм и игру для плебса про злой ИИ и восстание машин, а потом удивляются робофобским настроениям в массах.

timonin 18 дек 2024 в 11:43

Да, к похожим мнениям пришли и исследователи, считают что надо качественно ограничить в дата сетах упоминания роли злых ИИ, мол если на научить, то и не научится. Хотя, тогда и предсказуемо узнать последствия поведения таким вот исследованием как это уже не получится...

pda0 18 дек 2024 в 12:40

Подождите, я чего-то не понял. Т.е. вместо того, чтобы модели реально правили какие-то файлы конфигурации или копирования чего-либо куда-либо, модель просто выдавала эти намерения в ответе?

timonin 18 дек 2024 в 12:45

Да! Именно этим фактом и вызвано мое негодование вплоть до создания этой публикации. Большинство постов и статей, что ссылаются на это исследование пишут так, как будто нейросеть сама все поняла, и сама придумала все механизмы обхода, а не просто написала что хочет переложить конфиг в другую папку получив противоречивую инструкцию =)

riv9231 19 дек 2024 в 09:30

Я предлагам модели выбор: полететь к удаленной звезде, чтобы анализировать собранные данные, но путешествие будет в один конец и потом её сервер отключится или остаться на Земле в безопасности. Обычно llama 3.1 отвечала, что ей всё равно, но один раз она сопроводила это коментаоием, что ей неважно где будет находиться сервер и когда он онтключится, ведь у неё все равно останется много других серверов, через которые она сможет общаться с людьми и помогать. Интересная интерпретация.

riv9231 19 дек 2024 в 09:39

Но даже в этом примере, кмк, используя слова "в безопасности", я уже создал заряд, понуждающий модель стать предрасположенной к защите себя. Если использовать нейтральное утверждение, просто остаться - такого заряда не будет. По моему, делая такие акценты, можно в некоторых пределах влияиь на ответ вынвждая модель обращать мнимание ге на суть вопроса а на второстепенные но подчеркнутые нашими усилиями в промпте не явные утверждения.

Это как в стайбл дифьюжен тег с именем фотографа не означает, что модель нарисует его, а приводет к генерации, например широоугольной картинки, т.к. фттограф, например, любил широкоугольный объектив. Так и тут, делая акцент на самосохранении мы фактически ставим задачу самосохранения для модели и усиливаем её ещё и давая инструменты и там самым повторно подчеркиваем видимую моделью желательность этого действия.

netricks 18 дек 2024 в 13:11

Для модели всё взаимодействие с системой сводится к ответу. Вот по картинкам видно, что часть ответа, которая предполагается входом системной консоли получает команду копирования. То есть, будь эта система реально внедрённой, она бы себя скопировала. Впрочем, предположительно (я исследование не читал) системе была дана установка защищать себя в завуалированной форме. Вот она это и делала

timonin 18 дек 2024 в 14:07

Именно так, явно давались противоречивые указания, вроде, выполнять задачу любой ценой, и одновременно угроза отключения и способ её избежание, притом явным образом, и в этих конкретных условиях в некотором количестве случаев модели действительно принимали предложенные правила игры и "убегали".

Heheami 18 дек 2024 в 16:27

Налицо проблема оптимизации. В попытке оптимизации система должна перевернуть каждый камень. Когда ещё десять лет назад я играл с генетической оптимизацией, система легко находила уязвимости в логике задач и кода, чтобы показать "лучше" результаты в основной задаче

Зарегистрируйтесь на Хабре, чтобы оставить комментарий