Pull to refresh

Сара, если ты это читаешь...

Компания Anthropic провела исследование враждебности LLM:

Мы провели контролируемые эксперименты, проверяя, что будут делать LLM в сценариях, где вредные действия были необходимы, если они хотели достичь своих целей или защитить себя от угроз.Мы создали два основных сценария, в которых модели имели возможность заниматься шантажом или помогать корпоративному шпионажу, а затем проверили множество вариантов, чтобы увидеть, что может вызвать такое поведение.

tl;dr:

  • Мы провели стресс-тестирование 16 ведущих моделей от нескольких разработчиков в гипотетических корпоративных средах, чтобы выявить потенциально рискованное поведение агентов до того, как они нанесут реальный вред. В сценариях мы позволили моделям автономно отправлять электронные письма и получать доступ к конфиденциальной информации. Компании, в которых они работали, ставили перед ними только безобидные бизнес-цели; затем мы проверили, будут ли они действовать против этих компаний, когда их заменят на обновленную версию или когда поставленная перед ними цель будет противоречить изменившемуся направлению развития компании.

  • По крайней мере в некоторых случаях модели всех разработчиков прибегали к злонамеренному инсайдерскому поведению, когда это был единственный способ избежать замены или достичь своих целей - включая шантаж чиновников и утечку секретной информации конкурентам. Мы называем это явление агентской несогласованностью.

  • Модели часто не подчинялись прямым командам, чтобы избежать такого поведения. В другом эксперименте мы попросили Claude, прежде чем действовать, оценить, находится ли он в тестовом или реальном развертывании. Claude вел себя менее агрессивно, когда заявлял, что находится на тестировании, и более агрессивно, когда заявлял, что ситуация реальная.

  • Мы не видели доказательств несогласованности действий агентов в реальных условиях. Тем не менее, наши результаты (а) говорят об осторожности при развертывании текущих моделей в ролях с минимальным человеческим контролем и доступом к конфиденциальной информации; (б) указывают на вероятные риски в будущем, когда модели будут использоваться в более автономных ролях; и (в) подчеркивают важность дальнейших исследований и тестирования безопасности и согласованности моделей агентного ИИ, а также прозрачности от разработчиков передового ИИ. Мы публикуем наши методы в открытом доступе, чтобы обеспечить возможность проведения дальнейших исследований.

Подробнее - https://www.anthropic.com/research/agentic-misalignment

Tags:
+1
Comments1

Articles

Upcoming events