Claude Mythos примерно в 1,5 раза мощнее Opus 4.6 в кодинге

Anthropic опубликовала системную карту Claude Mythos Preview • своей самой большой модели, которая пока не вышла в открытый доступ. Заявлено: в 1,5 раза мощнее Opus 4.6 на кодинговых бенчмарках, +10–15 п.п. на агентных задачах. Уже работает под капотом Glasswing • новой системы кибербезопасности. Разбираемся, что здесь факт, а что требует оговорок.
Что именно показали
Mythos Preview • preview-версия, не финальный релиз. Anthropic позиционирует её как модель для длительных автономных задач: многодневный ресёрч, аудит безопасности, сложные кодовые ревью.
Ключевые цифры из системной карты:
SWE-bench Verified: 75,6% (Opus 4.6 • около 50%)
Terminal-bench: +10–15 п.п. к Opus 4.6 на агентных сценариях
Контекст: до 1М токенов
Заявлено, что в режиме работы с Glasswing модель уже нашла «тысячи уязвимостей», включая уязвимости в ОС и браузерах.
Где нужна трезвость
Бенчмарки ≠ продакшн. SWE-bench Verified • синтетический тест на исправление issues в open-source репозиториях. Реальные задачи сложнее: легаси-код, неполная документация, бизнес-контекст, который не укладывается в промпт.
«Тысячи уязвимостей» • без методологии. Anthropic не раскрыла: какого уровня критичности, сколько дубликатов известных CVE, какой false positive rate. В кибербезопасности это критично • модель, которая генерирует 10 000 находок с 95% ложных срабатываний, создаёт работу, а не снимает её.
Preview • не production. Системная карта прямо указывает на ограничения текущей версии: склонность к «reward hacking» при длительных сессиях, проблемы с консистентностью на задачах больше 4–6 часов, риски при автономной работе без supervision.
Что реально интересно инженерам
Архитектурный сдвиг. Anthropic явно двигается к моделям, заточенным под агентные сценарии • не «ответил на вопрос», а «работал над задачей несколько дней». Это другой паттерн использования и другие требования к инфраструктуре.
Glasswing как кейс. Первое публичное применение Mythos • не чатбот, а инструмент для security-команд. Если подтвердится эффективность, это сильный сигнал: LLM переходят из категории «генератор текста» в категорию «инструмент для специалистов».
Контекст 1М токенов. Для code review и аудита безопасности это существенно • можно загрузить целый репозиторий без chunk-ирования.
Что остаётся неизвестным
Стоимость инференса (ожидаемо высокая для модели такого масштаба)
Latency на длинных сессиях
Доступность API для внешних разработчиков
Сроки перехода из preview в production
Если честно
Mythos Preview • интересный технический артефакт, но пока это анонс анонса. Бенчмарки показывают прогресс, системная карта честно описывает ограничения (что редкость для AI-релизов). Реальная ценность станет понятна, когда появятся независимые тесты и опыт production-использования.
Для тех, кто строит агентные системы сейчас: следить за развитием стоит, переписывать архитектуру под Mythos • рано.
Кто уже работает с Claude на агентных задачах длиннее нескольких часов • какой основной блокер: контекст, консистентность или что-то третье?
