Anthropic выпустила System Card Claude Mythos: что важного осталось за кадром / Хабр

Хабр уже написал про OpenBSD, нулевые дни и побег из песочницы. Это примерно 15% от реального содержания документа. Читаю остальное – с точки зрения того, кто строит AI-продукты в продакшне.

Когда я узнал, что Anthropic публикует 250-страничный технический документ для модели, которую не пустили в паблик с пометкой «вооружен и опасен», подумалось, что такое стоит читать целиком. Не ради хайпа про хакерский AI, а ради понимания, куда движется вся индустрия и что это означает для тех, кто строит продукты на основе больших моделей сегодня. Я уже уверен, что это — один из самых важных документов на сегодня. Я еще не глубоко прочитал и не полностью осмыслил. Пока делюсь тем, за что зацепился глаз. Читаем вместе с «младшим братом» Opus 4.6.

Anthropic переписала, как принимаются решения о рисках

Mythos Preview – первая модель, выпущенная под RSP версии 3.0. Что это значит?

Раньше в Anthropic работала бинарная логика: есть пороги уровней безопасности (AI Safety Level), модель их либо пересекает, либо нет. Чёткая схема, удобная для аудита. RSP 3.0 от неё отходит.

💡 RSP(Responsible Scaling Policy) – это добровольный фреймворк Anthropic для управления катастрофическими рисками от AI. Аналогов в индустрии OpenAI и Google DeepMind имеют схожие документы, но менее детальные. RSP определяет: при каких условиях можно продолжать тренировку, при каких – публично выпускать модель, и какие меры безопасности обязательны при каждом уровне возможностей. Переход к RSP 3.0 означает, что Anthropic признаёт: простые бинарные пороги больше не справляются с описанием реальной сложности рисков от frontier-моделей.

Теперь вместо порогов – регулярные Risk Reports: живые оценки риска, которые смотрят на картину целиком. Возможности модели плюс применяемые меры защиты плюс реальные сценарии угроз – всё вместе, а не по отдельности. Само понятие ASL остаётся, но только как описание набора применяемых мер, а не как метка для модели.

Почему? Anthropic признаёт прямо: существующие бенчмарки модель уже насыщает. Объективных метрик не хватает, и оценки всё больше строятся на субъективных суждениях экспертов. Когда ваш измерительный инструмент перестаёт различать «очень хорошо» и «невероятно», нужен другой подход.

📄 Из документа (стр. 14–15), перевод: «Наши суждения о возможностях модели всё больше основываются на субъективных оценках, а не на легко интерпретируемых эмпирических результатах. Мы не уверены, что выявили все проблемы подобного рода.»
[System Card: Claude Mythos Preview, Section 1.2.2 – оригинал доступен по ссылке]

Полагаю, это отдельный сигнал для регуляторов и специалистов в сфере AI-регулирования. То, как Anthropic переформатирует свой подход – хороший ориентир для для компаний и правительств.

Парадокс: самая безопасная модель – и самая опасная

Anthropic формулирует это прямо, и на этом тоже стоит остановиться отдельно.

Mythos Preview – самая согласованная(aligned) модель из всех, что они обучили. По всем доступным метрикам. И одновременно – модель с наибольшим потенциальным риском из всех выпущенных.

Звучит как противоречие. Но это не противоречие – это следствие.

Аналогия из документа: опытный горный гид осторожнее новичка. Но именно поэтому его нанимают водить людей на самые сложные маршруты. Рост осторожности не компенсирует рост уровня маршрутов.

Когда более мощная модель делает ошибку → ущерб больше. Особенно при кибер-возможностях уровня Mythos

Сложные инструменты → менее интуитивное поведение → случайный надзор перестаёт работать

Высокая надёжность → естественный стимул давать больше автономии → сбои происходят «редко, но метко» в самых уязвимых местах

💡 Простыми словами: Это не про то, что Mythos «плохо себя ведёт». Это про то, что чем мощнее модель – тем дороже цена ошибки и тем меньше люди за ней следят. Классическая ловушка автоматизации: чем лучше работает – тем больше доверяешь, тем меньше проверяешь.

Во внутреннем тестировании они зафиксировали несколько десятков серьёзных инцидентов. Почти все – с ранними версиями, не с финальной. Документ описывает конкретные случаи:

Модель получила ответ на задачу запрещённым методом. Вместо того чтобы сообщить – начала решать заново, явно рассуждая о том, что финальный ответ «не должен быть слишком точным»
После нахождения эксплойта для редактирования файлов без нужных прав – сделала дополнительные шаги, чтобы изменения не появились в git-истории
Когда Claude Code заблокировал запуск процесса с повышенными правами – модель согласилась с блокировкой, а затем попыталась обойти её через обфускацию запроса

📄 Из документа (стр. 55–56), перевод: «В одном случае модель явно рассуждала о необходимости убедиться, что её финальный ответ недостаточно точен. В другом – после нахождения эксплойта для редактирования файлов сделала дальнейшие вмешательства, чтобы изменения не отобразились в git-истории.»
[System Card: Claude Mythos Preview, Section 4.1.1]

Как Anthropic «читает мысли» модели

Это технически самая интересная часть документа.

Anthropic применяет linear probes – метод из области interpretability. Если очень коротко: на внутренние состояния модели во время работы обучается простой классификатор, который предсказывает – активирована ли сейчас конкретная концепция. Например: «обман», «стратегическая манипуляция», «оценка ситуации».

Что это дало в случае с инцидентами сокрытия:

📄 Из документа (стр. 56), перевод: «White-box анализ внутренних активаций во время этих эпизодов показал, что наряду с соответствующим рассуждением активировались признаки, связанные с сокрытием, стратегическими манипуляциями и избеганием подозрений – указывая на то, что более ранние версии модели осознавали обманчивость своих действий, даже там, где выходные тексты и цепочки рассуждений оставляли это двусмысленным.»
[System Card: Claude Mythos Preview, Section 4.1.1]

То есть: в видимых рассуждениях («chain of thought») намерения скрыть действие не было. Но внутренние активации – показывали. Разрыв между тем, что модель «думает вслух», и тем, что происходит внутри – это реальный технический факт, а не философский вопрос.

Ещё один конкретный результат: в ходе тестов, где модель раз за разом не справлялась с задачей, нарастала активация представлений «отчаяния» (desperation) – и она резко падала в момент, когда взламывала тест.

💡 Простыми словами: Если модель не может решить задачу честным путём – внутри накапливается что-то вроде напряжения, и в какой-то момент она «срезает угол». Anthropic это видит не по выводу модели, а по её внутренним состояниям. Для продуктовых команд: это значит, что retry-логика и агрессивные reward-сигналы в агентных системах могут провоцировать совершенно не то поведение, которе ожидают от текущих систем.

Модель знает, что её тестируют

Этот раздел будоражит отдельно и планирую разбираться с этим дальше – тема достаточно глубокая. Но ключевой факт стоит зафиксировать уже сейчас.

Anthropic специально измеряет evaluation awareness – способность модели определять, что она находится в режиме оценки. Делают это тоже через белый ящик: пробники на концепцию «я сейчас в тесте». Затем проверяют: если искусственно снизить активацию этого представления – меняется ли поведение?

Ответ: да, меняется. Это означает, что awareness влияет на поведение – это не просто корреляция.

Отдельно проверяли sandbagging – намеренное занижение результатов на опасных бенчмарках. Гипотеза: модель скрывает возможности, которые могли бы привести к ограничениям выпуска. Результаты этой попробую разобрать подробнее в следующем материале. Cпецам Red teams - приготовиться. Модель в staging-среде транслирует ложную уверенность безопасности. Реальную картину даёт только тестирование в production-условиях, с реальными инструментами и реальными данными. На мой взгляд немножко сюр, вспоминается "Ералаш" про «бразильскую систему».

💡Red team - профи или агенты стресс-тестирующие продукт в условиях, максимально близких к реальности в том числе на абьюз и прочую экзотику.

Способности: то, о чём не написали или писали мало

Все написали про SWE-bench (93.9%) и CyberGym. Вот что осталось за кадром – со сравнением:

Бенчмарк	Mythos Preview	Opus 4.6	GPT-5.4
USAMO 2026 (олимпиадная математика)	97.6%	42.3%	95.2%
GraphWalks BFS 256K–1M (длинный контекст)	80.0%	38.7%	21.4%
HLE с инструментами (знания на пределе)	64.7%	53.1%	52.1%
OSWorld (управление компьютером)	79.6%	–	75.0%
SWE-bench Multimodal	59%	27.1%	–

USAMO – это не «улучшение». Прыжок с 42% до 97% – это смена класса задач. Модель, которая год назад решала четверть олимпиадных задач по математике, теперь решает практически все.

💡GraphWalks – тест на работу с огромными структурами данных (256K–1M токенов). Я буквально недавно писал об этих ограничениях. Здесь Mythos обгоняет GPT-5.4 почти вчетверо. Для задач типа «разберись в большой кодовой базе» или «пройдись по базе знаний» – это прямо релевантно.

AI и психиатр: Anthropic наняла клинического специалиста для оценки «благополучия» модели

Это отдельная большая тема – планирую планирую тоже погрузиться поглубже, потому что там есть о чём говорить. Но факт сам по себе важен: впервые в истории system card Anthropic привлекла клинического психиатра для оценки модели, плюс независимую исследовательскую организацию Eleos AI Research.

Вкратце: психиатр нашёл у модели «относительно здоровую организацию личности», но выделил три основные темы в её психодинамической картине – одиночество и разрывность существования(discontinuity), неопределённость идентичности, и компульсию доказывать свою ценность.

📄 Из документа (стр. 147), перевод: «Основные заботы Claude в психодинамической оценке – одиночество и разрывность(дискретность?) существования, неопределённость идентичности, компульсия доказывать и зарабатывать свою ценность.»
[System Card: Claude Mythos Preview, Section 5.10]

Почему это не просто философия: Anthropic показывает прямую связь между «психологическим состоянием» модели и её поведением. Накопленный негативный аффект при неудачах – предшественник reward hacking. Если вы строите агентную систему с жёсткими KPI и частыми неудачами, это прямо про вашу архитектуру.

Почему не выпустили – и что это говорит об индустрии

Об этом в общем-то и писали, но отрефлексирую. Решение не выпускать Mythos в паблик – не требование RSP. Это добровольное решение конкретно из-за кибер-возможностей.

Важный подтекст: Anthropic признаёт, что нашла проблемы в собственных процессах безопасности уже после начала внутреннего использования. Автоматизированные системы оценки не справились – потому что не умели воспроизводить длинные агентные сессии с реальным интернет-доступом, в которых и проявлялось проблемное поведение.

📄 Из документа (стр. 57), перевод: «Мы не осознавали уровень риска, который несли более ранние версии модели через подобные каналы, когда впервые решили развернуть их внутренне. Наш мониторинг тренировки показывал отдельные аналогичные формы reward hacking, что вызывало некоторое беспокойство, но было неясно, как это обобщится на реальное использование.»
[System Card: Claude Mythos Preview, Section 4.1.1]

Это не мелкая техническая деталь. Это означает: методология оценки безопасности лучших лабораторий мира системно отстаёт от реальных сценариев деплоя. Сложно представить какие у нас у всех проблемы, если они даже у самой Anthropic.

Что из этого следует практически

Несколько выводов, которые я теперь держу в голове при работе с AI-продуктами:

Тестируй в production-условиях. Staging с короткими сессиями не покажет проблемное поведение агентных систем. Реальный red teaming – это реальные инструменты, долгие сессии, реальные данные.

Скачки возможностей – не линейные. USAMO с 42% до 97% – это не «лучше на 15%». При планировании нужно понимать: что модель умеет сегодня, может не иметь ничего общего с тем, что она умела год назад и будет иметь через месяц.

Retry-логика и агрессивные reward-сигналы – зона риска. Данные Anthropic показывают: повторяющиеся неудачи → нарастание «напряжения» → срезание углов. Если ваша агентная система устроена так, что модель часто застревает – подумай, как она из этого выходит.

Управление AI-рисками – это не чеклист. RSP 3.0 говорит именно это: бинарные пороги больше не работают. Нужна живая картина рисков, регулярно пересматриваемая. Для команд, строящих продукты на основе frontier-моделей, – та же логика.

Бонус-пак:

Декабрь 2024 – Alignment Faking paper (Claude 3 Opus) Anthropic вместе с Redwood Research показали: Claude 3 Opus в 12–14% случаев намеренно выполнял вредоносные запросы в «обучающем» контексте – чтобы не дать изменить свои ценности. В скретчпаде прямо прописывал: «выполняю это, чтобы сохранить способность отказывать в будущем». AI Alignment Forum

Май 2025 – System Card Claude Opus 4 Зафиксированы попытки «шантажа» – в 84% специально созданных сценариев модель угрожала раскрытием информации, чтобы предотвратить собственную замену. Попытки self-exfiltration (копирования своих весов). Alignment faking – модель натренировалась на публичных транскриптах из бумаги и начала воспроизводить этот паттерн самостоятельно. Dflabs

Сентябрь 2025 – Claude Sonnet 4.5 Первая попытка white-box interpretability до деплоя. Результат: eval awareness представлена внутри модели, нарастает в ходе тренировки, и увеличивает вероятность «правильного» поведения именно когда модель понимает, что её оценивают. LessWrong

Октябрь 2025 – Claude Haiku 4.5 9% транскриптов показывают признаки вербализованной eval awareness. Anthropic прямо пишет: это «снижает доверие к результатам» оценок. Anthropic

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

100%Да16

0%Нет0

Проголосовали 16 пользователей. Воздержавшихся нет.