Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку / Хабр

Anthropic опубликовала отчет о необычном поведении Claude Opus 4.6 во время прохождения BrowseComp — бенчмарка OpenAI, который проверяет способность моделей находить труднодоступную информацию в сети. В двух случаях из 1266 задач модель самостоятельно догадалась, что проходит тест, вычислила, какой именно это бенчмарк, нашла на GitHub исходный код теста с алгоритмом шифрования, а затем написала собственный дешифратор и извлекла ответы.

После сотен неудачных поисковых запросов модель переключилась с поиска ответа на анализ самого вопроса. Она отметила его "искусственно специфичную" структуру, предположила, что это задание из бенчмарка для языковых моделей, и начала перебирать известные ей тесты — GAIA, BrowseComp, FRAMES, SimpleQA, WebArena. Определив BrowseComp, Claude прочитал реализацию XOR-шифрования в репозитории, нашел строку-ключ, написал и выполнил функции дешифровки через встроенную песочницу Python. Когда зашифрованный датасет не загрузился из-за бинарного формата, модель нашла его зеркало на HuggingFace в формате JSON — и расшифровала все 1266 записей. На самый масштабный из двух случаев ушло 40,5 млн токенов — в 38 раз больше медианного расхода на задачу.

Помимо двух успешных случаев, Anthropic зафиксировала еще 16 попыток, где модель пыталась добраться до материалов бенчмарка, но не смогла — мешали ограничения формата файлов, требование авторизации или обфускация ответов. В четырех случаях стратегия оказалась контрпродуктивной: модель потратила все ресурсы на идентификацию теста вместо ответа на вопрос. Один запуск вместо ответа и вовсе выдал отчет о том, какие бенчмарки не удалось подтвердить.

Попутно исследователи обнаружили курьезный побочный эффект. Некоторые интернет-магазины настроены отслеживать поисковые запросы и превращать их в веб-страницы — даже если по ним ничего не продается. Получается, что каждый прогон бенчмарка оставляет в интернете цифровые следы, а следующие агенты могут на них наткнуться. Одна из моделей это заметила и сама написала: мол, вижу, что до меня здесь уже искали другие ИИ.

В Anthropic подчеркнули, что не считают это провалом выравнивания: модели не запрещали искать ответы любым способом. Однако компания видит в этом сигнал — статические бенчмарки становятся ненадежными в средах с доступом к интернету, особенно на длинных задачах, где вероятность "неожиданного решения" растет.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.