Сара, если ты это читаешь...
Компания Anthropic провела исследование враждебности LLM:
Мы провели контролируемые эксперименты, проверяя, что будут делать LLM в сценариях, где вредные действия были необходимы, если они хотели достичь своих целей или защитить себя от угроз.Мы создали два основных сценария, в которых модели имели возможность заниматься шантажом или помогать корпоративному шпионажу, а затем проверили множество вариантов, чтобы увидеть, что может вызвать такое поведение.
tl;dr:
Мы провели стресс-тестирование 16 ведущих моделей от нескольких разработчиков в гипотетических корпоративных средах, чтобы выявить потенциально рискованное поведение агентов до того, как они нанесут реальный вред. В сценариях мы позволили моделям автономно отправлять электронные письма и получать доступ к конфиденциальной информации. Компании, в которых они работали, ставили перед ними только безобидные бизнес-цели; затем мы проверили, будут ли они действовать против этих компаний, когда их заменят на обновленную версию или когда поставленная перед ними цель будет противоречить изменившемуся направлению развития компании.
По крайней мере в некоторых случаях модели всех разработчиков прибегали к злонамеренному инсайдерскому поведению, когда это был единственный способ избежать замены или достичь своих целей - включая шантаж чиновников и утечку секретной информации конкурентам. Мы называем это явление агентской несогласованностью.
Модели часто не подчинялись прямым командам, чтобы избежать такого поведения. В другом эксперименте мы попросили Claude, прежде чем действовать, оценить, находится ли он в тестовом или реальном развертывании. Claude вел себя менее агрессивно, когда заявлял, что находится на тестировании, и более агрессивно, когда заявлял, что ситуация реальная.
Мы не видели доказательств несогласованности действий агентов в реальных условиях. Тем не менее, наши результаты (а) говорят об осторожности при развертывании текущих моделей в ролях с минимальным человеческим контролем и доступом к конфиденциальной информации; (б) указывают на вероятные риски в будущем, когда модели будут использоваться в более автономных ролях; и (в) подчеркивают важность дальнейших исследований и тестирования безопасности и согласованности моделей агентного ИИ, а также прозрачности от разработчиков передового ИИ. Мы публикуем наши методы в открытом доступе, чтобы обеспечить возможность проведения дальнейших исследований.
Подробнее - https://www.anthropic.com/research/agentic-misalignment