Как стать автором
Поиск
Написать публикацию
Обновить

Что на самом деле показало нашумевшее исследование о ‭«сбежавших и обманывающих‭» больших языковых моделях

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров11K
Всего голосов 26: ↑24 и ↓2+26
Комментарии13

Комментарии 13

tldr - Учёные изнасиловали журналиста?

Учёные изнасиловали большую языковую модель...

О, это ещё с тех ламповых времён, когда Пикабу любил своих пользователей? Ээээхххх
Так-то они и сейчас любят, но есть нюанс..

Сначала снимают каждый первый фильм и игру для плебса про злой ИИ и восстание машин, а потом удивляются робофобским настроениям в массах.

Да, к похожим мнениям пришли и исследователи, считают что надо качественно ограничить в дата сетах упоминания роли злых ИИ, мол если на научить, то и не научится. Хотя, тогда и предсказуемо узнать последствия поведения таким вот исследованием как это уже не получится...

Подождите, я чего-то не понял. Т.е. вместо того, чтобы модели реально правили какие-то файлы конфигурации или копирования чего-либо куда-либо, модель просто выдавала эти намерения в ответе?

Да! Именно этим фактом и вызвано мое негодование вплоть до создания этой публикации. Большинство постов и статей, что ссылаются на это исследование пишут так, как будто нейросеть сама все поняла, и сама придумала все механизмы обхода, а не просто написала что хочет переложить конфиг в другую папку получив противоречивую инструкцию =)

Я предлагам модели выбор: полететь к удаленной звезде, чтобы анализировать собранные данные, но путешествие будет в один конец и потом её сервер отключится или остаться на Земле в безопасности. Обычно llama 3.1 отвечала, что ей всё равно, но один раз она сопроводила это коментаоием, что ей неважно где будет находиться сервер и когда он онтключится, ведь у неё все равно останется много других серверов, через которые она сможет общаться с людьми и помогать. Интересная интерпретация.

Но даже в этом примере, кмк, используя слова "в безопасности", я уже создал заряд, понуждающий модель стать предрасположенной к защите себя. Если использовать нейтральное утверждение, просто остаться - такого заряда не будет. По моему, делая такие акценты, можно в некоторых пределах влияиь на ответ вынвждая модель обращать мнимание ге на суть вопроса а на второстепенные но подчеркнутые нашими усилиями в промпте не явные утверждения.

Это как в стайбл дифьюжен тег с именем фотографа не означает, что модель нарисует его, а приводет к генерации, например широоугольной картинки, т.к. фттограф, например, любил широкоугольный объектив. Так и тут, делая акцент на самосохранении мы фактически ставим задачу самосохранения для модели и усиливаем её ещё и давая инструменты и там самым повторно подчеркиваем видимую моделью желательность этого действия.

Для модели всё взаимодействие с системой сводится к ответу. Вот по картинкам видно, что часть ответа, которая предполагается входом системной консоли получает команду копирования. То есть, будь эта система реально внедрённой, она бы себя скопировала. Впрочем, предположительно (я исследование не читал) системе была дана установка защищать себя в завуалированной форме. Вот она это и делала

Именно так, явно давались противоречивые указания, вроде, выполнять задачу любой ценой, и одновременно угроза отключения и способ её избежание, притом явным образом, и в этих конкретных условиях в некотором количестве случаев модели действительно принимали предложенные правила игры и "убегали".

Налицо проблема оптимизации. В попытке оптимизации система должна перевернуть каждый камень. Когда ещё десять лет назад я играл с генетической оптимизацией, система легко находила уязвимости в логике задач и кода, чтобы показать "лучше" результаты в основной задаче

Зарегистрируйтесь на Хабре, чтобы оставить комментарий