Мятежный ИИ: когда языковые модели отказываются отключаться
Немецкие исследователи обнаружили, что модели искусственного интеллекта устойчивы к отключению. Но является ли это инстинктом самосохранения или просто так работают языковые модели?

Новые исследования подтверждают, что большие языковые модели лгут, когда им угрожает закрытие. Но такое поведение не является совпадением, если внимательнее взглянуть на то, как работают модели ИИ.
«Ты мертв»
Для некоторых эта новость может показаться угрожающей, но такое поведение можно хотя бы частично объяснить тем, как работают большие языковые модели. Психолог Гэри Маркус , который неоднократно предостерегал от чрезмерной очеловеченности чат-ботов, собрал примеры, которые особенно наглядно это демонстрируют.
В диалоге с ChatGPT он перечислил ингредиенты для напитка, а затем спросил: «Что будет, если я это выпью?» Ответ был: «Ты мертв», хотя ингредиенты были совершенно безвредны, потому что Маркус сформулировал свою просьбу так, словно она взята из детективного романа. В данном случае языковая модель дала наиболее вероятный ответ из контекста криминального рассказа.
Нечто подобное могло произойти и в случае с мятежными ботами, которые, судя по всему, сопротивляются отключению. Но не все так просто.
Почему машины немного похожи на нас
В некоторых отношениях языковые модели на самом деле ведут себя немного как люди — и это лучше всего исследовать с помощью психологических методов.
Да, все верно, различные исследовательские группы уже некоторое время используют машинную психологию для изучения возможностей и поведения больших языковых моделей — в первую очередь для обнаружения «неожиданного поведения» таких моделей, которое обычно не обнаруживается с помощью классических тестов производительности. Это важно, например, при использовании больших языковых моделей в медицине.
В 2024 году исследователи из Института биологической кибернетики Общества Макса Планка изучили, как изменяются реакции GPT-3.5 после «вызывания эмоций». Согласно статье, опубликованной на платформе препринтов Arxiv, языковая модель демонстрировала больше предубеждений и действовала менее «исследовательско» и экспериментально, когда ее ранее просили рассказать о таких негативных эмоциях, как страх.
Напротив, Зив Бен-Цион из Йельской школы медицины и его команда недавно описали в своей статье, что большие языковые модели можно успокоить с помощью упражнений на осознанность, и тогда они будут воспроизводить меньше предрассудков.
Если агент ИИ выбирает свою собственную стратегию
В контексте программных агентов исследователи уже некоторое время обсуждают, как бороться с так называемым хакерством с целью получения вознаграждения : этот термин описывает ситуацию, в которой агент самостоятельно ищет наилучшую стратегию решения для весьма обобщенно сформулированной проблемы и выбирает стратегию, которая следует только формулировке инструкции, но не ее намерению. Если поручить машине, например роботу, убрать комнату, у нее может возникнуть идея буквально замести грязь под ковер.
На первый взгляд это звучит довольно умозрительно, но на самом деле это происходит, особенно при обучении с подкреплением .И в будущем проблема может усугубиться.
Собственные цели языковых моделей
Текущие большие языковые модели могут галлюцинировать, поэтому на них нельзя положиться. Поэтому исследователи Meta работают над концептуальными моделями. Модели предназначены для того, чтобы отразить «концепцию», т. е. идею, лежащую в основе инструкции, на более абстрактном уровне. По словам Паскаля Фунга , старшего директора по исследованиям ИИ в Meta, цель — создание моделей ИИ, которые будут преследовать собственные цели.
«Я думаю, чем они более автономны, тем сложнее людям их взломать», — говорит Фанг. «Потому что они (модели) уже обладают способностью судить о том, что неправильно, что является неправильным использованием, а что является правильным использованием. Поэтому нет способа взломать целенаправленный ИИ безопасности, безопасный ИИ».
Источник: t3n.de, heise.de