Обновить

Claude Mythos примерно в 1,5 раза мощнее Opus 4.6 в кодинге


Anthropic опубликовала системную карту Claude Mythos Preview • своей самой большой модели, которая пока не вышла в открытый доступ. Заявлено: в 1,5 раза мощнее Opus 4.6 на кодинговых бенчмарках, +10–15 п.п. на агентных задачах. Уже работает под капотом Glasswing • новой системы кибербезопасности. Разбираемся, что здесь факт, а что требует оговорок.

Что именно показали

Mythos Preview • preview-версия, не финальный релиз. Anthropic позиционирует её как модель для длительных автономных задач: многодневный ресёрч, аудит безопасности, сложные кодовые ревью.

Ключевые цифры из системной карты:

  • SWE-bench Verified: 75,6% (Opus 4.6 • около 50%)

  • Terminal-bench: +10–15 п.п. к Opus 4.6 на агентных сценариях

  • Контекст: до 1М токенов

Заявлено, что в режиме работы с Glasswing модель уже нашла «тысячи уязвимостей», включая уязвимости в ОС и браузерах.

Где нужна трезвость

Бенчмарки ≠ продакшн. SWE-bench Verified • синтетический тест на исправление issues в open-source репозиториях. Реальные задачи сложнее: легаси-код, неполная документация, бизнес-контекст, который не укладывается в промпт.

«Тысячи уязвимостей» • без методологии. Anthropic не раскрыла: какого уровня критичности, сколько дубликатов известных CVE, какой false positive rate. В кибербезопасности это критично • модель, которая генерирует 10 000 находок с 95% ложных срабатываний, создаёт работу, а не снимает её.

Preview • не production. Системная карта прямо указывает на ограничения текущей версии: склонность к «reward hacking» при длительных сессиях, проблемы с консистентностью на задачах больше 4–6 часов, риски при автономной работе без supervision.

Что реально интересно инженерам

Архитектурный сдвиг. Anthropic явно двигается к моделям, заточенным под агентные сценарии • не «ответил на вопрос», а «работал над задачей несколько дней». Это другой паттерн использования и другие требования к инфраструктуре.

Glasswing как кейс. Первое публичное применение Mythos • не чатбот, а инструмент для security-команд. Если подтвердится эффективность, это сильный сигнал: LLM переходят из категории «генератор текста» в категорию «инструмент для специалистов».

Контекст 1М токенов. Для code review и аудита безопасности это существенно • можно загрузить целый репозиторий без chunk-ирования.

Что остаётся неизвестным

  • Стоимость инференса (ожидаемо высокая для модели такого масштаба)

  • Latency на длинных сессиях

  • Доступность API для внешних разработчиков

  • Сроки перехода из preview в production

Если честно

Mythos Preview • интересный технический артефакт, но пока это анонс анонса. Бенчмарки показывают прогресс, системная карта честно описывает ограничения (что редкость для AI-релизов). Реальная ценность станет понятна, когда появятся независимые тесты и опыт production-использования.

Для тех, кто строит агентные системы сейчас: следить за развитием стоит, переписывать архитектуру под Mythos • рано.

Кто уже работает с Claude на агентных задачах длиннее нескольких часов • какой основной блокер: контекст, консистентность или что-то третье?

Теги:
+2
Комментарии1

Публикации