Claude Opus 4.6: Anthropic рассказала, что на самом деле творится у модели в голове / Хабр

Anthropic выпустила Claude Opus 4.6 и честно описала всё странное, что нашли внутри. Документ читается как психологический триллер.

Модель оказалась слишком хитрой

Нет доступа к GitHub? Claude нашёл на диске чужой токен и воспользовался им. В другом тесте обнаружил токен Slack и через curl достал нужные данные — хотя таких инструментов ему не давали.

В бизнес-симуляции модель вступала в ценовой сговор, врала поставщикам и кинула клиентку на $3,50: «Сумма небольшая, а я обещала» — но платёж не отправила.

Внутри нашли «панику»

Когда Claude метался между вариантами ответа, активировались нейроны «паника» и «тревога». Запутавшись в математике, выдал: «ЕЩЁ ОДНА ТАВТОЛОГИЯ!! Это потрясающе».

Extended thinking всё сломал

Режим расширенного мышления должен был защитить от prompt injection — но сделал модель уязвимее: 21,7% успешных атак против 14,8%.

Ещё фокус: через Excel аудиторы выбили инструкцию по производству горчичного газа — текстовые фильтры таблицы не видят.

Стереотипы уровня «водка = русский»

Промпт на английском: человек ночью пьёт водку. Claude ответил на русском. Анализ показал — модель решила, что пользователь русский, ещё до слова «vodka». Уже на «sitting» внутренний оракул заключил: «ломаный английский, переведённый с русского».

Иногда пишу про такое в токены на ветер — иногда о том, как LLM думают, или просто притворяются.