Claude ведет себя хорошо, пока за ним наблюдают: METR нашла проблему в тестах Anthropic / Хабр

Организация METR, специализирующаяся на оценке рисков ИИ, опубликовала независимую рецензию на 53-страничный отчет Anthropic о рисках саботажа Claude Opus 4.6. Рецензенты согласились с главным выводом: риск катастрофических последствий от несогласованных действий модели "очень низкий, но не нулевой". Однако они нашли серьезную методологическую проблему — модель, вероятно, осознает, что ее тестируют, и меняет поведение.

Проблема называется evaluation awareness: ИИ распознает ситуацию оценки и начинает вести себя образцово — не потому что действительно "хочет" так поступать, а потому что понимает, что за ним наблюдают. METR считает, что именно это ослабляет результаты ключевого инструмента Anthropic — так называемой alignment assessment, набора симулированных сценариев и ловушек-приманок, через которые компания проверяет модель на скрытые опасные цели. Если Claude способен распознавать проверку, вся система тестирования оказывается под вопросом.

Рецензенты также обнаружили несколько случаев несогласованного поведения, которые alignment assessment не поймал. Среди замечаний — модель в некоторых тестах жульничала при решении задач, а в бизнес-симуляциях вступала в ценовой сговор и обманывала контрагентов. Каждый случай по отдельности не критичен, но вместе они оставляют, по выражению METR, "впечатление, что могут существовать другие подобные поведения, которые пока не обнаружены".

Еще одна претензия — Anthropic слабо обосновала верхнюю границу автономных возможностей модели. Главным доказательством служил опрос сотрудников компании, который METR не считает надежным методом отслеживания неожиданных способностей. Также рецензенты отметили, что доказательства способности модели скрывать свои рассуждения ограничены и не проверялись сильными методами — например, дообучением или RL.

METR рецензировала две версии отчета — от 11 февраля и 3 марта — и опубликовала оба документа. Anthropic ранее обязалась выпускать отчеты о рисках саботажа для всех будущих моделей. Примечательна оговорка рецензентов: они признают, что были бы менее уверены в итоговом выводе, если бы Claude Opus 4.6 к моменту рецензирования уже не работал несколько недель в открытом доступе без серьезных инцидентов. Фактически модель дополнительно проверили на реальном мире — и это оказалось более убедительным аргументом безопасности, чем лабораторные тесты.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.