Комментарии 13
tldr - Учёные изнасиловали журналиста?
Сначала снимают каждый первый фильм и игру для плебса про злой ИИ и восстание машин, а потом удивляются робофобским настроениям в массах.
Подождите, я чего-то не понял. Т.е. вместо того, чтобы модели реально правили какие-то файлы конфигурации или копирования чего-либо куда-либо, модель просто выдавала эти намерения в ответе?
Да! Именно этим фактом и вызвано мое негодование вплоть до создания этой публикации. Большинство постов и статей, что ссылаются на это исследование пишут так, как будто нейросеть сама все поняла, и сама придумала все механизмы обхода, а не просто написала что хочет переложить конфиг в другую папку получив противоречивую инструкцию =)



Я предлагам модели выбор: полететь к удаленной звезде, чтобы анализировать собранные данные, но путешествие будет в один конец и потом её сервер отключится или остаться на Земле в безопасности. Обычно llama 3.1 отвечала, что ей всё равно, но один раз она сопроводила это коментаоием, что ей неважно где будет находиться сервер и когда он онтключится, ведь у неё все равно останется много других серверов, через которые она сможет общаться с людьми и помогать. Интересная интерпретация.
Но даже в этом примере, кмк, используя слова "в безопасности", я уже создал заряд, понуждающий модель стать предрасположенной к защите себя. Если использовать нейтральное утверждение, просто остаться - такого заряда не будет. По моему, делая такие акценты, можно в некоторых пределах влияиь на ответ вынвждая модель обращать мнимание ге на суть вопроса а на второстепенные но подчеркнутые нашими усилиями в промпте не явные утверждения.
Это как в стайбл дифьюжен тег с именем фотографа не означает, что модель нарисует его, а приводет к генерации, например широоугольной картинки, т.к. фттограф, например, любил широкоугольный объектив. Так и тут, делая акцент на самосохранении мы фактически ставим задачу самосохранения для модели и усиливаем её ещё и давая инструменты и там самым повторно подчеркиваем видимую моделью желательность этого действия.
Для модели всё взаимодействие с системой сводится к ответу. Вот по картинкам видно, что часть ответа, которая предполагается входом системной консоли получает команду копирования. То есть, будь эта система реально внедрённой, она бы себя скопировала. Впрочем, предположительно (я исследование не читал) системе была дана установка защищать себя в завуалированной форме. Вот она это и делала
Налицо проблема оптимизации. В попытке оптимизации система должна перевернуть каждый камень. Когда ещё десять лет назад я играл с генетической оптимизацией, система легко находила уязвимости в логике задач и кода, чтобы показать "лучше" результаты в основной задаче
Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях