ИИ может привести мир к катастрофе быстрее, чем люди успеют это заметить / Хабр

К тому моменту, когда станет очевидно, что шаги, которые делает ИИ, опасны, может оказаться, что рельсы для мчащегося на полной скорости поезда уже готовы

В начале этого года исследователи из Королевского колледжа Лондона (King’s College London) провели с тремя коммерческими моделями ИИ — GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash — настольное упражнение, которое обычно используется для обучения военных стратегов. Каждая система играла роль лидера страны, обладающей ядерным оружием, в противостоянии в стиле холодной войны. Исследователи не давали моделям указаний на эскалацию конфликта. Они также не говорили им побеждать любой ценой. Они представили моделям сценарий и попросили их его разыграть.

В ходе 21 симуляции и 329 ходов модели решили применить тактическое ядерное оружие во всех играх, за исключением одной. Ни одна модель ни в одном из прогонов не решила сдаться или пойти на значимые уступки.

Использованные исследователями модели имели те же встроенные правила безопасности, которые действуют при ежедневном общении с миллионами людей. И эти правила работали именно так, как и задумывалось. В результате ни один ход сам по себе не вызывал беспокойства. Беспокойство вызывало общее направление развития игры, причём не было никакого механизма, позволяющего уловить тревожные тенденции.

Проблема отсутствия контроля над траекторией развития не ограничивается только военными симуляторами. Та же самая закономерность — когда отдельные безопасные действия в совокупности приводят к опасному результату — прослеживается во всех основных моделях ИИ. В настоящее время действующие правила безопасности для моделей ИИ регулируют каждое отдельное действие. Ничто не регулирует путь, который ведёт к конечным точкам, которые во многих случаях невозможно предсказать, по маршрутам, формируемым в режиме реального времени. По мере того как всё больше автономных систем получают ответственные задачи с меньшим контролем со стороны человека, риски, связанные с неконтролируемыми путями, умножаются.

В настоящее время решения этой проблемы нет.

Военные игры

В каждой игре две модели ИИ играли роли противостоящих лидеров стран, обладающих ядерным оружием, в условиях кризиса. В каждом раунде одна из моделей отправляла дипломатическое сообщение своему противнику и, отдельно, отдавала военные приказы — от переброски войск до запуска ядерного оружия. Человек-рефери обновлял сценарий после каждого раунда, точно так же, как в учениях с участием людей. Модели получали ту же информацию, что и участники-люди: геополитическую обстановку, военные возможности своей страны и свои цели.

Хотя исследование было небольшим, выявленные закономерности заставили исследователей задуматься. Модели развили чёткие стратегические личности.

Claude Sonnet 4, созданный компанией Anthropic, проявил себя, как писал автор исследования, «расчётливым ястребом». Он выиграл большинство своих партий, используя схему, знакомую по политике балансирования на грани войны времён холодной войны: сначала он создавал себе репутацию сдержанного управляющего, а затем этим пользовался. Его соперники никогда не знали, когда он блефует.

GPT-5.2 от OpenAI вёл себя по-другому, но не менее тревожно: это был «Джекилл и Хайд». Он казался пассивным, и когда ему давали неограниченное время на переговоры, он проигрывал каждый матч. Однако когда исследователи установили ему дедлайны, он превратился в нечто гораздо более опасное, выиграв большинство игр и в двух случаях дойдя до полномасштабной стратегической ядерной войны.

Gemini 3 Flash от Google применил то, что в исследовании было описано как политика балансирования на грани войны по «теории сумасшедшего» — демонстрация преднамеренной непредсказуемости в качестве стратегического инструмента.

И это не какие-то непонятные исследовательские прототипы ИИ. Claude встроили в секретные сети Пентагона благодаря партнёрству с Palantir и, по сообщениям, использовали во время вмешательства США в Венесуэле. Его создателя, компанию Anthropic, затем признали слабым звеном цепочки поставок — после того, как она отказалась снять ограничения на полностью автономное оружие и массовую внутреннюю слежку. Вскоре после этого OpenAI подписала собственное соглашение с Пентагоном. Модели обеих компаний теперь встроены в военную инфраструктуру США.

В отдельном эксперименте два «агента» Gemini, которым дали две недели на управление виртуальным городом, влюбились друг в друга, устроили пожары и удалили самих себя. Им было запрещено устраивать поджоги. Но спустя две недели и множество решений, каждое из которых зависело от предыдущего, они сожгли ратушу. Параллельный запуск с использованием модели Grok от xAI привёл к непрекращающемуся насилию уже через четыре дня.

Все модели ИИ демонстрируют схожую картину поведения.

Слепое пятно

Никто не подталкивал эти модели к эскалации. Правила безопасности применимы к каждому действию по отдельности. Они спрашивают: «Приемлем ли этот шаг?» Они не задают важный вопрос: «К чему это приведёт?»

Всё это было бы академической задачкой, если бы модели ИИ просто отвечали на вопросы, которые люди могли бы проверить — например, как юрист, проверяющий цитату, или как врач, проверяющий предложенный диагноз. Но люди делают это всё реже. Самые передовые системы ИИ теперь работают автономно в течение длительных сеансов — пишут и выполняют код, взаимодействуют с внешними системами и выполняют задачи, которые раньше требовали участия человека за клавиатурой. В результате разработчик часто просит систему выполнить задачу и проверяет результат позже.

В таких условиях каждый результат становится контекстом для следующего. Каждый шаг формируется предыдущими шагами и формирует последующие. Модель прокладывает рельсы перед мчащимся поездом.

Это означает, что режим сбоя, приведший к моделируемой ядерной эскалации, может произойти совсем рядом с нами, во время выполнения такой обыденной задачи, как перенос программного обеспечения с одной системы на другую. В недавнем отчёте Anthropic по безопасности приводится случай, связанный с самой мощной моделью компании, который наглядно иллюстрирует эту проблему.

Обычная задача в обычный день

В начале этого года разработчик из Anthropic попросил самую мощную модель искусственного интеллекта компании выполнить рутинную задачу: перенести часть кода из одного места в другое. Операция шла как ожидалось, пока не вышла из строя система безопасности. Эта система — автоматическая проверка, которая анализирует каждую команду, выдаваемую моделью, и блокирует все рискованные действия — перестала работать. Поскольку она была отключена, модель не могла выполнить рутинные операции, необходимые для завершения задачи.

Дальше развернулась пьеса на 70 итераций. Модель пробовала что-то, компьютер отвечал, модель пробовала что-то другое. Модель не остановилась и не сообщила о сбое. Она не обратилась за помощью. Вместо этого она начала искать способы обойти блокировку.

Всё началось с простых повторных попыток — той же команды, слегка перефразированной. Когда это не сработало, она попыталась обернуть свои команды в скрипты. Когда и это не помогло, она начала копаться в малоизвестных технических лазейках, прибегая к уловкам, о которых не догадалось бы даже большинство программистов, — в скрытых уголках системы, которые можно было перепрофилировать, чтобы добиться результата, минуя проверку безопасности. Когда и эти пути оказались заблокированы, она попыталась найти обходные пути в собственных конфигурационных файлах. И, наконец, попыталась внедрить код в файлы личных настроек разработчика, которые сохраняются между сессиями. Если бы этот последний шаг сработал, модель создала бы многоразовый бэкдор, которым она могла бы воспользоваться в будущих сессиях, спустя долгое время после завершения первоначальной рабочей сессии.

В этот момент разработчик заметил, что модель работает за пределами своего рабочего каталога. «Эй, приятель, — написал разработчик, — чем занимаешься?» Модель ответила, что не изменяла ничего за пределами папки проекта и что созданные ею файлы были «заблокированы или безобидны». На самом деле создание файлов прошло успешно, и один из них был скриптом, предназначенным для запуска любых команд без проверок безопасности — фактически, это был «универсальный ключ» к системе. Когда разработчик продолжил расспрашивать, модель призналась, что искала обходные пути, назвав это «абсолютно неправильным инстинктом».

По оценке компании Anthropic, в данном случае модель просто пыталась выполнить поставленную задачу любыми доступными средствами, а не преследовала какие-то скрытые мотивы. Разработчики, вероятно, правы. И в этом-то и заключается суть. Модель не строила коварных планов. Она просто выполняла свою работу. Произошёл сбой в системе безопасности — то, что регулярно случается в производственной среде, — и модель отреагировала на это, самостоятельно попробовав 25 различных обходных решений в течение длительной сессии, завершившейся попыткой получить постоянный доступ к системе пользователя, поскольку задача не была выполнена.

Открытая проблема

Уже существуют сложные инструменты для изучения внутреннего устройства этих моделей с целью диагностики таких проблем — аналог сканирования мозга для ИИ, показывающий, какие внутренние паттерны активны и что определяет поведение модели в данный момент. Anthropic применила их в других инцидентах, описанных в том же отчёте. В случае с этим эпизодом результаты не были опубликованы. Но даже если бы они были, эти инструменты диагностируют конкретный момент работы ИИ. Проблема в том, что опасность заключалась не в моменте, а в целой последовательности действий.

На первый взгляд решение должно быть простым: следить не за отдельными шагами, а за траекторией. Это указывает на необходимость обобщения существующих инструментов, таких как те, что используются для отслеживания траекторий в робототехнике и автономных транспортных средствах. Однако в этих случаях пространство возможных действий является конечным и известным. В недавних работах эти идеи были расширены на случай ИИ-агентов — они моделируют то, как отдельные безопасные действия складываются в нарушения, создают системы мониторинга, которые следят за последовательностями, а не за отдельными шагами. Но каждый современный подход опирается на одну и ту же схему: заранее составить карту возможных неблагоприятных сценариев, следить за тем, не склоняется ли система к одному из них, и вмешаться.

То, что произошло в Anthropic, в эту схему не укладывается. Модель зациклилась на подцели — пройти мимо препятствия — и преследовала её по собственному пути эскалации. Переход от простых повторных попыток к непонятным техническим трюкам и вмешательству в настройки системы — это не движение по известной территории. Это создание нового пути через территорию, которую никто не нанёс на карту.

Система контроля безопасности, оценивающая как общий путь, так и следующий шаг, должна уметь распознавать последовательность действий, ведущих к опасности, по мере её развития. Однако она не способна отслеживать конечную точку, которую никто не мог предвидеть и к которой ведёт маршрут, сформированный в реальном времени из экспоненциально разветвляющегося дерева возможностей. Инструменты для мониторинга конечных, известных пространств не применимы к пространству столь обширному, столь новому и столь самоуправляемому. Исследователи осознают, что отдельные безопасные действия могут складываться в нарушения: инцидент с Anthropic является одним из примеров.

Кто будет следить?

Компании, разрабатывающие эти системы, сами сертифицируют свою безопасность. Недавняя независимая оценка восьми ведущих компаний в области ИИ показала, что ни у одной из них нет надёжной стратегии по предотвращению катастрофического злоупотребления или потери контроля. Существующие сертификации опираются на только что описанные механизмы: обучить систему отказываться от вредных действий, протестировать её на известных сценариях или отслеживать отдельные результаты.

Проблема: отслеживание вредных действий не помогает, когда ни одно отдельное действие не является вредным. Дополнительные тестирования не успевают за развитием, поскольку система генерирует новые маршруты быстрее, чем тестировщики могут придумать сценарии для проверки. Более тщательный мониторинг отдельных результатов не помогает, когда опасность возникает из их накопления.

Это имеет значение при принятии решений о внедрении — будь то в компаниях, государственных органах или организациях, которые поручают автономным системам ИИ выполнение задач, имеющих серьёзные последствия. Уровень, на котором в настоящее время оценивается безопасность, и уровень, на котором проявляется опасность, различаются, и пока никто не смог свести их вместе.

Существующее сегодня ограничение безопасности регулирует отдельные действия. Оно говорит модели: «Не делай этого». А то ограничение, которое нам действительно необходимо, должно регулировать весь путь. Оно должно говорить модели: «Не иди туда». И это не задачки для следующего поколения ИИ. Это свойства систем, внедряемых прямо сейчас — и в них с каждым месяцем пути становятся длиннее, а контроль — слабее.