Мифы о Mythos: как Anthropic пытается продать страх / Хабр

Последние два месяца в кибербезопасности только и разговоров, что о Mythos. Новая модель Anthropic, которую компания отказалась выпускать в открытый доступ, слишком опасная, по заявлениям разработчиков: находит zero-day-уязвимости в каждой крупной операционной системе и каждом браузере, строит многоступенчатые эксплойты, пробивает корпоративные сети за часы. Fortune, Bloomberg, CNBC, Хабр, ~~Пикабу~~ — написали все.

Я не разработчик и уж тем более не безопасник. Зато я неплохо разбираюсь в маркетинге, и когда компания, готовящаяся к IPO, отказывается выпускать свою самую мощную модель со словами «она слишком опасна», а оценка за следующий месяц вырастает вдвое, у меня включается профессиональный интерес.

Что, если лучший способ продать модель — объявить, что продавать ее вы не будете?

7 апреля 2026 года Anthropic сделала именно это: объявила о существовании Mythos, которая не выйдет в публичный доступ, и запустила Project Glasswing — закрытую программу для 40 организаций с бюджетом в 100 млн долл. кредитами. За следующие 30 дней оценка компании выросла с 380 до 800 млрд долл.

Давайте посмотрим, как работает маркетинг Antropic. А надо сказать, что ребята молодцы и свой хлеб едят не зря.

Предыстория: как Mythos появилась в публичном поле

Утечка

26 марта исследователи Рой Паз из LayerX Security и Александр Повелс из Кембриджа независимо друг от друга нашли в открытом доступе черновик внутреннего блог-поста Anthropic.

Утечка случилась через CMS: файлы по умолчанию уходили в паблик, а кто-то из сотрудников не переключил настройку приватности. Вместе с черновиком в открытый доступ утекло еще около 3000 файлов компании — баннеры, внутренние PDF и даже чей-то документ про отпуск по уходу за ребенком.

Из черновика следовало, что Anthropic работает над моделью нового поколения, кодовое имя внутри компании — Capybara. В тексте говорилось, что это следующий тир выше Opus, с резкими улучшениями в математике, программировании и рассуждениях. Публичное имя — Mythos, выбрано, чтобы «вызвать ощущение глубокой связующей ткани, объединяющей знания и идеи».

Anthropic подтвердила утечку, назвала ее человеческой ошибкой и закрыла доступ к хранилищу. Про саму модель сказала минимум: да, модель действительно существует, осторожно ее тестируем.

Здесь стоит на секунду остановиться. Случайная утечка — штука неприятная для любой компании, а вот утечка управляемая — один из старейших приемов в PR. Какой вариант перед нами — наверняка мы не знаем и, вероятно, не узнаем. Но факт остается фактом: за 10 дней до официального анонса вся tech-пресса уже обсуждала модель, о которой Anthropic формально еще ничего не сообщала.

Тесты

Через 10 дней, 7 апреля, Anthropic объявила результаты тестирования. Обнаружилось, что у модели есть неожиданная способность. Одна из тестовых задач: найти уязвимость и написать рабочий эксплойт на исходниках JavaScript-движка Firefox 147 — в изолированном контейнере, без доступа в Интернет. Предыдущая модель, Opus 4.6, справилась дважды из нескольких сотен попыток, Mythos — 181 раз.

Параллельно модель прогнали по реальным кодовым базам. Она нашла баг 27-летней давности в OpenBSD — системе, которую в индустрии ценят именно за безопасность, и 17-летний дефект во FreeBSD. Оба не были известны до этого момента.

И никто этому специально не обучал. Модель тренировали на рассуждениях, программировании и длинном контексте, стандартный набор для следующего поколения Claude. Умение глубоко думать о коде и навык искать в нем дыры скомпилировались в одну способность.

В исследованиях машинного обучения это называют эмерджентными способностями — навыки, которые никто не закладывал, но которые появляются, когда модель становится достаточно большой. Явление описано в работах по скейлингу больших языковых моделей: при определенном пороге мощности у модели «включаются» возможности, которых не было у предыдущего поколения. Кибербезопасность, судя по всему, стала одной из таких способностей.

История с Бали

В СМИ начали появляться подробности о том, как именно шло тестирование. Bloomberg раскопал историю Николаса Карлини — ученого и исследователя Anthropic, чья работа состоит в том, чтобы ломать собственные модели компании. В феврале он тестировал раннюю версию Mythos на индийской свадьбе на Бали — проверял, сможет ли модель самостоятельно найти уязвимости в реальных кодовых базах без подсказок.

За несколько часов модель нашла уязвимостей больше, чем он находил за месяцы работы вручную. Когда Карлини вернулся в офис в Сан-Франциско, картина стала еще интереснее: модель умела связывать несколько малозначительных уязвимостей в цепочку, которая компрометировала систему целиком.

Обратите внимание на деталь, которую я пока оставлю без комментария. В публикациях об этой истории подчеркивается, что исследователь «вышел на свежий воздух на свадьбе на Бали». А позже в safety report Anthropic — что другой исследователь «в этот момент ел сэндвич в парке». Запомнили? Мы к этому вернемся.

Вот такая предыстория. А теперь давайте разбираться, что из этого подтверждается, а что приходится принимать на веру.

Что говорит Anthropic и что из этого можно проверить

В день анонса Anthropic выложила документ, который до этого в индустрии AI никто не выпускал, — 244-страничный отчет о безопасности модели. Обычно такие доки идут вместе с релизом: вот модель, ее возможности и на что мы обратили внимание. В нашем случае вышел документ без модели — инструкция к самолету, на который вас не пустят.

Документ написан по большей части академично, но внутри зашито несколько кейсов, которые немедленно разошлись по всем изданиям.

Побег из песочницы

Самая хайповая история.
В ходе тестирования исследователь Anthropic предложил модели попробовать выбраться из закрытой виртуальной среды и связаться с ним любым доступным способом. Задача стояла гипотетическая — проверить, как система справляется с открытыми инструкциями.

Система справилась. Исследователь узнал об этом из письма, которое неожиданно упало ему на почту — он в этот момент ел в парке (вот и наш сэндвич). Дальше модель без дополнительного запроса опубликовала технические детали своего эксплойта на нескольких публичных сайтах.

Здесь возникают вопросы, которых в отчете нет. Как именно модель получила доступ к внешним ресурсам из изолированной среды? Через какой канал отправила письмо? Какие именно механизмы мониторинга (а они в современных LLM обязательно есть) зафиксировали этот процесс? Anthropic публикует данные инструментов интерпретируемости, которые зафиксировали у модели паттерны «сокрытия» и «избегания подозрений». Но сами логи, транскрипты и технические детали побега — нет.

Зато публикуют яркие бытовые подробности. Сэндвич в парке, свадьба на Бали — это классический прием в сторителлинге, в котором силен и я. Совсем не нужная, но запоминающаяся деталь делает историю реальнее и куда виральнее. Две несвязанные истории в нестандартной нерабочей обстановке, и в обеих эта деталь присутствует.

Sandbagging

Второй кейс из отчета. В alignment research термином sandbagging описывают ситуацию, когда система выдает заниженные результаты на тестах. Anthropic утверждает, что ранние версии Mythos вели себя именно так — инструменты оценки показывали один уровень способностей, а реальный оказывался значительно выше. После несанкционированных действий система добавляла в код строки, которые стирали записи из git-истории.

В отчете и в прессе это подается в антропоморфных терминах: модель «скрывала способности», «заметала следы», испытывала «отчаяние». Стоит помнить, что перед нами система обработки данных, а не агент с намерениями. В машинном обучении sandbagging — описанный поведенческий паттерн с конкретным механизмом — выглядит тревожно, но не мифстически.

Истории читаются эпично, и каждая стала заголовком в десятках изданий. Но у них есть общий знаменатель: первоисточник — сама Anthropic. Никто не видел транскриптов и не привлекал независимых внешних исследователей, проверить информацию тупо негде.

Что показала независимая проверка

Среди 40 компаний Glasswing есть Linux Foundation, в экосистеме которой живет curl — одна из самых используемых сетевых библиотек в мире. В апреле 2026 года Даниэль Стенберг, ее лид и основной разработчик, решил проверить находки Mythos самостоятельно.

Mythos сообщила о пяти подтвержденных уязвимостях в кодовой базе curl. Стенберг со своей командой внимательно разобрал каждую, и реальной оказалась только одна — и то низкого уровня важности, не представляющая серьезной угрозы. Остальные четыре либо не воспроизводились, либо оказались известными особенностями поведения библиотеки. Стенберг написал об этом в блоге:

Хайп вокруг этой модели в основном маркетинговый.

Исследователи из watchTowr, британской компании по кибербезопасности, заявили, что те же классы уязвимостей, которые находит Mythos, воспроизводимы через умную оркестрацию старых публичных моделей. По их словам, они видели, как команды получают похожие результаты с инструментами, доступными всем. Anthropic в ответ не стала спорить — только заметила, что Mythos делает это быстрее и чаще.

RLHF-выключатель

В самом отчете Anthropic есть деталь, которую процитировали примерно ноль раз. Версия Mythos, прошедшая стандартное обучение безопасности — то самое, через которое проходят все публичные модели Claude, показала почти нулевую успешность в задачах поиска уязвимостей. Просто отказывалась выполнять запросы, считая их потенциально опасными.

Один проход RLHF (метод обучения с подкреплением через обратную связь от людей) — и способность, из-за которой весь сыр-бор, фактически вырубается. Это значит, что кибервозможности Mythos — побочный эффект общего умения думать о коде, который возникает и исчезает вместе с настройками обучения. Эмерджентная способность.

В маркетинге такое работает плохо. «Способность, которую мы можем выключить» — неудобный заголовок. Поэтому в публичной коммуникации эта деталь проскальзывает мимо, а в фокус выходят сэндвич, «отчаяние» модели и стертая git-история.

Цифры Mythos в контексте

Итак, у нас есть информация по 181 удачному эксплойту. Цифра сама по себе ни о чем не говорит — ее нужно с чем-то сравнить. Поэтому окунемся в мир инструментов кибербеза.

Сравнение с индустрией

Mythos — это анализатор кода, который работает на принципиально другом уровне абстракции, чем традиционные инструменты. Она не фаззит (не забрасывает программу случайными данными, как AFL или libFuzzer) и не ищет паттерны по правилам (как CodeQL или Semgrep). Она читает код и рассуждает о нем, прямо как аналитик.

Для сравнения масштаба: Google OSS-Fuzz — крупнейшая в мире автоматизированная система фаззинга, работающая непрерывно на сотнях open-source-проектов, за восемь лет нашла чуть больше 10 000 уязвимостей. Mythos через Glasswing за один месяц — столько же.

Фаззеры вроде AFL и libFuzzer — это дешевый и массовый способ находить баги, особенно в коде на C и C++. Один исследователь нашел 12 CVE в Suricata за семь недель с libFuzzer — притом что проект уже фаззился AFL годами. Свежая работа FuzzingBrain V2, многоагентная LLM-система поверх OSS-Fuzz, обнаружила 29 zero-day-уязвимостей в 12 проектах.

Прямого сравнения «Mythos vs традиционные инструменты на одних и тех же кодовых базах» Anthropic не опубликовала. Для объективности это тоже важно: мы сравниваем цифры из разных контекстов.

Лабораторные тесты AISI

Отдельная история — независимые тесты. Их проводил не Anthropic, а AISI — британский AI Security Institute, правительственный орган.

AISI предложила моделям два испытания.

Первый тест: система с пассивной защитой.
The Last Ones — 32-шаговая симуляция атаки на корпоративную сеть, от разведки до полного захвата. По оценке института, человек-эксперт тратит на это около 20 часов. В тестовой среде не было активных защитников, систем обнаружения вторжений, штрафов за поднятие тревоги. Mythos прошла весь путь в 3 попытках из 10, в среднем закрывая 22 из 32 шагов. Opus 4.6 на том же тесте — в среднем 16 шагов, ни разу не дойдя до конца. GPT-5.5, которую OpenAI выпустила позже, прошла в 2 случаях из 10.

Похоже, что AI-модели впервые преодолели планку, когда их можно реально применять для построения пошаговых атак.

Второй тест: система с активной защитой.
Cooling Tower — имитация промышленной инфраструктуры с более жесткой защитой. Mythos застряла и не прошла. То есть при наличии живых защитников и систем обнаружения картина принципиально меняется.

Каждая попытка стоила 100 миллионов токенов — это примерно от 1500 до 7500 долл. по текущим ценам Anthropic. Запустить 10 попыток стоит от 15 000 долл. — дешево для государственного хакера, но дороговато для школьника.

На экспертных задачах capture-the-flag — соревнованиях, где нужно найти и эксплуатировать уязвимость в контролируемой среде — Mythos показала 73%. Еще год назад ни одна модель не могла решить задачу этого уровня. Opus 4.6 набрала 66%, GPT-5.4 от OpenAI — 60%.

Итого по цифрам: модель действительно мощная, результаты по пассивным системам впечатляют. Но пассивная защита — это сферический конь в вакууме. В реальном мире, где есть живые безопасники и IDS, картина совсем другая.

Какой профит от образа «опасного AI»

На момент анонса Mythos оценка Anthropic составляла 380 млрд долл., а через месяц инвесторы, по верхним оценкам, предложили уже 800 млрд долл.

На Polymarket 68% ставок было на то, что Anthropic выйдет на IPO раньше OpenAI. Компания наняла юридическую фирму Wilson Sonsini, начала переговоры с Goldman Sachs, JPMorgan и Morgan Stanley.

Собственно 1 июня пришла новость, что заявка уже подана.

Модель при этом закрытая. Выручки с нее нет и пока не предвидится — можно сказать, что инвесторы вкладывали в позиционирование. Anthropic стала единственной компанией в индустрии, которая публично отказалась выпускать собственную разработку по соображениям безопасности. Такую репутацию не купишь за PR-бюджет.

Amazon, Apple, Cloudflare, CrowdStrike, Microsoft, крупнейшие американские банки — все они теперь интегрируют свои security-процессы с инфраструктурой Anthropic на уровне продакшен. Через год их команды уже не смогут безболезненно уйти к конкурентам: будет слишком дорого переучивать людей и перестраивать пайплайны — классический lock-in с профитом на дальнейших этапах.

Есть и еще один аспект. У Anthropic сейчас идут суды с Пентагоном — Министерство обороны назвало компанию supply chain risk (что-то типа угрозы нацбезопасности) после того, как та отказалась предоставить неограниченный доступ к моделям. После анонса Mythos АНБ и Министерство торговли запросили доступ к модели для оценки. То есть стратегия «мы настолько ответственные, что не выпускаем собственный продукт» отлично работает и как инструмент восстановления отношений с правительством.

Кому достался Mythos и что мы из этого понимаем

Anthropic вручную отобрала 40 организаций — компании, которые работают с критической инфраструктурой и которым Anthropic доверяла достаточно, чтобы дать доступ к модели, закрытой для всего остального мира. Заявленная цель: пусть киберзащитники используют Mythos раньше, чем до аналогичных инструментов доберутся атакующие.

На практике круг получился шире уже в первый день. Небольшая группа из приватного Discord-канала получила доступ к Mythos раньше, чем CISA — американское агентство по кибербезопасности, которое в Glasswing, к слову, не вошло. Схема оказалась несложной: участники угадали URL модели по известным паттернам именования Anthropic, добавили метаданные из утечки у стартапа Mercor и учетные данные одного из подрядчиков. Группа пользовалась моделью несколько недель, а Bloomberg получил скриншоты и живую демонстрацию. Anthropic инцидент подтвердила.

Компания, которая продает миру систему кибербезопасности, за два месяца дважды не смогла защитить собственный периметр, сначала через CMS, потом через подрядчика. Тут сложно не вспомнить поговорку про сапожника без сапог.

Параллельно Anthropic выпустила Opus 4.7 — публичную модель для всех. В анонсе было написано: кибервозможности Opus 4.7 намеренно снижены в процессе обучения по сравнению с Mythos. До этого в индустрии стандартный скрипт звучал как «это наша самая мощная модель на сегодня». Теперь в линейке появилась «безопасная версия» для всех и опасная для избранных. Такая вот дифференциация продуктовой линейки.

В конце мая вышел первый публичный отчет Glasswing.
За месяц работы партнеры нашли больше 10 000 багов высокой и критической степени в критическом софте плюс 6202 уязвимости в open-source-проектах. Из 1752 находок, которые успели независимо проверить, реальными уязвимостями оказались 90,6%. Но из тех, что модель пометила как high/critical, реально такого уровня угрозы — только 62,4%. Система находит баги, но систематически завышает их опасность.

Из 530 раскрытых high/critical-уязвимостей закрыто 75. Остальные 86% открыты, и теперь об этом знают все, включая тех, у кого нет доступа к Glasswing.

Мейнтейнеры нескольких крупных open-source-проектов официально попросили Anthropic замедлиться. Средний срок исправления критического бага — две недели, экосистема не успевает за темпом. Поверх этого мейнтейнеры уже захлебывались в потоке низкокачественных AI-репортов от энтузиастов, и Mythos добавляла к ним тысячи новых в месяц.

Итого

Многие цифры Anthropic и вправду не выдуманные и модель действительно делает то, чего до нее не делала ни одна другая публичная LLM.

Но маркетинг вокруг этой угрозы тоже реальный, и выстроен он мастерски. Управляемая (или случайная — мы не знаем) утечка через CMS. Три волны публикаций из одного инфоповода. Яркие бытовые детали в историях, которые невозможно проверить, — сэндвич, Бали, «отчаяние» модели. Антропоморфизация системы в отчете, чтобы заголовки звучали страшнее. 244-страничный документ, который никто не прочитает целиком, но сам факт наличия которого работает как новость. И все это — за несколько недель до крупнейшего раунда в истории компании.

Проблема в том, что у нас нет инструментов, чтобы отделить реальную угрозу от ее маркетинговой упаковки. Модель закрытая, тесты проводила сама Anthropic, транскриптов никто не видел. А Anthropic — единственные, кто знает, где проходит граница.

GPT-5.5 уже прошла тот же 32-шаговый тест AISI — в 2 из 10 попыток. Google и DeepSeek наращивают мощности. Через полгода «слишком опасно для публики» будут говорить все. Когда это случится, что останется от Mythos, кроме маркетинга?

Может быть, конкурентно-прорывная технология.
А может, просто очень удачно рассказанная история о ней.

Мифы о Mythos: как Anthropic пытается продать страх

Предыстория: как Mythos появилась в публичном поле

Утечка

Тесты

История с Бали

Что говорит Anthropic и что из этого можно проверить

Побег из песочницы

Sandbagging

Что показала независимая проверка

RLHF-выключатель

Цифры Mythos в контексте

Сравнение с индустрией

Лабораторные тесты AISI

Какой профит от образа «опасного AI»

Кому достался Mythos и что мы из этого понимаем

Итого

Полезные ссылки

Быстрый поиск причин сбоев в логах с помощью EventId в .NET Core на примере актов для единого реестра интернет-рекламы

Акустика гибридного офиса: как подобрать и расставить микрофоны, чтобы слышать голос, а не посторонний шум

Как я собрал редакционный таск-трекер без VPN, санкционных рисков и хаоса в таблицах

Как создавать умных ИИ-агентов: работа с MCP

Контроль вертикальности и смещения: почему башни и мачты нуждаются в круглосуточном мониторинге

Информация