Claude Mythos: Anthropic случайно слила данные о своей мощнейшей модели / Хабр

Anthropic разрабатывает и уже тестирует с доверенными клиентами новую ИИ-модель, которую называет самой мощной в своей истории. О ее существовании стало известно из-за утечки данных: черновик блог-поста с описанием модели оказался в публично доступном хранилище, откуда его извлекли журналисты Fortune и независимые исследователи — Рой Паз из LayerX Security и Александр Повельс из Кембриджского университета.

Модель получила название Claude Mythos, а вместе с ней Anthropic вводит новый уровень — Capybara. По задумке компании, Capybara крупнее и мощнее Opus, который до сих пор был верхней планкой линейки Claude. В слитом черновике говорится, что модель значительно превосходит Claude Opus 4.6 в тестах на программирование, академические рассуждения и кибербезопасность. Представитель Anthropic подтвердил Fortune разработку модели и назвал ее "качественным скачком возможностей".

Главная интрига — кибербезопасность. Согласно черновику, Anthropic считает, что модель далеко опережает все существующие ИИ-системы по кибервозможностям и предвещает волну моделей, способных эксплуатировать уязвимости быстрее, чем защитники успевают их закрывать. Именно поэтому компания планирует начать с ограниченного доступа для организаций, занимающихся киберзащитой, — чтобы дать им фору.

Утечка произошла из-за ошибки конфигурации CMS — системы управления контентом для блога Anthropic. Создаваемые в ней материалы по умолчанию получали публичный URL, если пользователь не менял настройку приватности вручную. В результате наружу попали около 3000 ранее не публиковавшихся файлов: черновики постов, изображения, PDF-документы — включая информацию о закрытом саммите для европейских CEO с участием Дарио Амодеи. Anthropic признала проблему, назвав ее "человеческой ошибкой", и подчеркнула, что утечка не связана с Claude или другими ИИ-инструментами компании.

Тревога вокруг кибервозможностей ИИ нарастает по всей индустрии. В феврале OpenAI при выпуске GPT-5.3-Codex впервые присвоила своей модели рейтинг High по кибербезопасности, а Claude Opus 4.6, вышедший в тот же день, уже демонстрировал способность обнаруживать ранее неизвестные уязвимости в рабочем коде. В ноябре 2025 года Anthropic раскрыла первую задокументированную масштабную кибератаку с использованием ИИ: китайская группировка применяла Claude Code для атак на около 30 организаций, и ИИ автономно выполнял 80–90% операций. Claude Mythos, судя по всему, делает следующий шаг — и Anthropic сама об этом предупреждает, пусть и не совсем так, как планировала.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.