Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках / Хабр

Anthropic выпустила Claude Opus 4.6 — обновление флагманской модели, которое впервые для линейки Opus получило контекстное окно в 1 млн токенов (в бета-версии) и выход до 128 тысяч токенов. На бенчмарке рабочих задач GDPval-AA модель обходит GPT-5.2 от OpenAI на 144 очка Elo, а собственный предыдущий Opus 4.5 — на 190. Opus 4.6 также занял первое место на Terminal-Bench 2.0 (агентное программирование), Humanity's Last Exam (мультидисциплинарное рассуждение) и BrowseComp (поиск труднодоступной информации в сети).

По словам разработчиков, модель тщательнее планирует задачи, дольше удерживает фокус в агентных сценариях, увереннее работает с большими кодовыми базами и лучше находит собственные ошибки при ревью. Особенно заметен прогресс в работе с длинным контекстом — проблема, которую в индустрии называют context rot: качество ответов падает по мере роста объема переданного текста. На тесте MRCR v2 (1M токенов, 8 "иголок" — фрагментов информации, спрятанных в большом массиве текста) Opus 4.6 набирает 76%, тогда как Sonnet 4.5 — всего 18,5%. Anthropic называет это качественным сдвигом в том, сколько контекста модель реально способна использовать.

Для разработчиков появилось несколько новых инструментов. Adaptive thinking позволяет модели самой решать, когда ей нужно "думать глубже", — раньше расширенное рассуждение можно было только включить или выключить целиком. Параметр effort даёт четыре уровня (low, medium, high, max) для баланса между качеством, скоростью и стоимостью. Context compaction автоматически сжимает старый контекст при приближении к лимиту окна, что позволяет агентам работать дольше без потери нити.

На продуктовом уровне главное нововведение — agent teams в Claude Code: несколько агентов работают параллельно, координируются между собой и при необходимости передают управление разработчику. Anthropic позиционирует это для задач, которые разбиваются на независимые части, — например, ревью кодовой базы. Помимо этого, обновлен Claude in Excel (модель теперь планирует действия перед выполнением и обрабатывает неструктурированные данные без подсказок), а в research preview вышел Claude in PowerPoint — он читает шаблоны, шрифты и мастер-слайды, чтобы сохранять корпоративный стиль.

Партнеры Anthropic, получившие ранний доступ, делятся первыми результатами. Rakuten рассказал, что Opus 4.6 за один день автономно закрыл 13 задач и распределил ещё 12 среди нужных команд в организации из ~50 человек и 6 репозиториев — модель сама определяла, когда эскалировать вопрос к человеку. Норвежский суверенный фонд NBIM провел 40 слепых сравнений в кибербезопасности: Opus 4.6 выиграл 38 из 40 против разных версий Claude 4.5.

Anthropic утверждает, что рост возможностей не повредил безопасности: Opus 4.6 показал самый низкий уровень ложных отказов (когда модель отказывается отвечать на безобидные запросы) среди последних моделей Claude и в целом сохранил профиль безопасности предшественника. Цена осталась прежней — $5/$25 за миллион токенов на входе и выходе соответственно, с премиум-тарифом при превышении 200 тысяч входных токенов. Модель доступна в claude.ai, по API (строка claude-opus-4-6) и на облачных платформах.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.