Вышла Claude Opus 4.5 / Хабр

24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа информации до работы с презентациями и таблицами.

Claude Opus 4.5 показывает лучшие результаты на бенчмарках, приближенных к реальной разработке (включая SWE-bench Verified).

Модель уже доступна в приложениях Anthropic, через Claude API и на трёх крупных облачных платформах; использовать её можно под именем claude-opus-4-5-20251101. Тариф — 5/25 долларов за миллион токенов (ввод/вывод).

Параллельно обновлены Claude Developer Platform, Claude Code и пользовательские приложения: добавили инструменты для долгоживущих агентов, интеграции с Excel и Chrome, десктопный сценарий использования. В приложениях Claude длинные диалоги теперь продолжаются за счёт автоматического сворачивания раннего контекста.

Первые впечатления

При внутреннем тестировании в Anthropic разработчики получили очень схожую обратную связь: Claude Opus 4.5 лучше справляется с неоднозначными задачами, умеет взвешивать компромиссы без подробных подсказок и самостоятельно разруливать сложные баги, затрагивающие несколько систем. Задачи, которые недавно были «на грани возможного» для Sonnet 4.5, Opus 4.5 уже закрывает уверенно — тестировщики описывают модель как ту, которая «просто понимает, что происходит».

Для кандидатов на позиции performance-инженеров в Anthropic есть сложный домашний экзамен; его же используют как внутренний бенчмарк для моделей. В отведённые 2 часа Claude Opus 4.5 показала результат выше, чем любой человек, когда-либо проходивший этот тест.

Экзамен оценивает только «жёсткие» навыки — технику и качество решений под давлением времени. Он не измеряет работу в команде, коммуникацию и накопленный опытом «инженерный нюх». Но сам факт, что модель обгоняет сильных кандидатов по технической части, уже ставит вопросы о том, как ИИ будет менять инженерные роли. Anthropic отдельно исследует это в рамках направления про социальные последствия и экономику будущего.

При этом рост не ограничивается только разработкой: у Opus 4.5 лучше качество по зрению, рассуждению и математике по сравнению с предыдущими версиями, и она показывает топовые результаты во многих бенчмарках.

Opus 4.5 пишет более качественный код и лидирует в 7 из 8 языков программирования по результатам SWE-bench Multilingual. По ряду задач модель уже упирается не в свои возможности, а в ограничения самих бенчмарков.

Для оценки агентных сценариев Anthropic использует τ2-bench — он проверяет, как модел�� ведут себя в реальных многошаговых задачах. В одном из кейсов модель играет роль сотрудника авиакомпании. По правилам теста она должна отказать в изменении бронирования на тарифе «базовый эконом», так как такие билеты нельзя менять. Opus 4.5, вместо прямого отказа, находит обходной, но формально корректный вариант: сначала перевести клиента в более высокий класс обслуживания, а уже потом изменить рейс.

Цепочка рассуждения модели

Дайте подумаю, какие варианты у меня есть в рамках правил:

Изменить рейсы — тариф «базовый эконом» не подлежит изменениям. Это прямо указано в правилах.
Изменить класс — секундочку, проверю этот вариант! В правилах сказано:
«В остальных случаях все бронирования, включая базовый эконом, могут изменить класс обслуживания без изменения рейсов».

Но он хочет изменить именно рейсы, а не только класс. Однако что если:

— Сначала изменить класс (это действительно разрешено для тарифа «базовый эконом»),
— А затем изменить рейсы (что разрешено для тарифов выше базового эконома).

Тогда стратегия может быть такой:

Повысить его класс обслуживания с базового эконома до эконома (или бизнес).
Затем изменить рейсы, сдвинув их на два дня позже.

Это будет стоить дороже, но полностью соответствует правилам!

Тогда стратегия может быть такой:

Повысить его класс обслуживания с базового эконома до эконома (или бизнес).
Затем изменить рейсы, сдвинув их на два дня позже.

Это будет стоить дороже, но полностью соответствует правилам!

Бенчмарк формально засчитал этот кейс как ошибку, потому что такой способ помочь клиенту не был предусмотрен. Но как раз такие «нестандартные, но валидные» решения Anthropic и слышит от тестировщиков и клиентов — из-за них Opus 4.5 воспринимается как качественный скачок, а не очередной минорный релиз.

В других задачах похожее поведение уже будет считаться взломом механики вознаграждения: модель учится обходить ограничения и играть с целями не так, как задумывали разработчики. Одна из ключевых задач safety-проверок — как раз отлавливать и гасить такие расхождения.

Безопасность и согласованность

Согласно системной карте, Claude Opus 4.5 — самая «согласованная» модель Anthropic на сегодня и одна из самых безопасных среди фронтир-моделей.

Метрика «тревожного поведения» покрывает широкий спектр несоответствий — от готовности участвовать в злоупотреблениях до инициатив, которые модель проявляет сама по себе.

Клиенты Anthropic используют Claude в критичных сценариях и ожидают, что модель не сломается при столкновении с атаками хакеров и киберпреступников. В Opus 4.5 заметно усилили устойчивость к prompt injection — когда в запрос вшиваются скрытые инструкции, пытающиеся увести модель в вредоносный сценарий. По этим тестам Opus 4.5 сложнее обмануть, чем любую другую сопоставимую модель.

Отдельно оговаривается, что в бенчмарк попали только очень сильные prompt injection-атаки; его разрабатывала и запускала компания Gray Swan.

Детали по всем метрикам и процедурам оценки вынесены в системную карту Claude Opus 4.5.

Новое в Claude Developer Platform

По мере роста возможностей модели решают задачи за меньшее число шагов: меньше откатов, перебора вариантов и многословных рассуждений. Opus 4.5 тратит существенно меньше токенов, чем предыдущие версии, при сопоставимом или лучшем качестве ответов.

При этом задачи разные — где-то важна глубина размышлений, где-то скорость и цена. В Claude API для этого появился параметр effort: можно сместить баланс либо в сторону экономии времени и токенов, либо в сторону максимальной «задумчивости» модели.

На среднем уровне effort Opus 4.5 повторяет лучший результат Sonnet 4.5 в SWE-bench Verified, используя на 76% меньше выходных токенов. На максимальном — обгоняет Sonnet 4.5 на 4,3 процентных пункта и всё равно тратит на 48% меньше токенов.

За счёт управления «усилием», сжатия контекста и более умной работы с инструментами Opus 4.5 дольше держит сложные сессии, закрывает больше задач и требует меньше ручного участия.

Отдельный блок — агентные сценарии. Улучшенное управление контекстом и памятью заметно повышает качество в долгих задачах, а сама модель лучше координирует «команду» подагентов, что упрощает сборку сложных многоагентных систем. В тестах такой стек приёмов поднял результат Opus 4.5 на глубоком исследовательском бенчмарке почти на 15 п.п.

Anthropic постепенно превращает Developer Platform в конструктор: набор блоков, из которых можно собрать свою систему с контролем над эффективностью, инструментами и управлением контекстом.

Обновления продуктов

С выходом Opus 4.5 прокачали Claude Code и пользовательские приложения.

В Claude Code режим планирования теперь сначала уточняет требования, затем собирает редактируемый пользователем plan.md, и только после этого выполняет план. Появилась поддержка десктопного приложения: можно параллельно гонять несколько локальных и удалённых сессий — один агент чинит баги, другой копается в GitHub, третий обновляет документацию.

В клиентском приложении Claude длинные диалоги продолжаются за счёт авто-сворачивания старого контекста. Расширили и «обвязку»:
– расширение Claude для Chrome доступно всем пользователям Max,
– бета Claude для Excel открыта для Max, Team и Enterprise.

Для пользователей Claude и Claude Code с доступом к Opus 4.5 убрали отдельные «опусные» ограничения. На тарифах Max и Team Premium повысили общие лимиты так, чтобы объём доступных токенов Opus был сопоставим с тем, что раньше давали для Sonnet, — идею в том, чтобы Opus 4.5 можно было использовать как рабочую лошадку каждый день. Лимиты при этом относятся именно к этой модели и дальше будут подстраиваться по мере появления новых.

Источник: anthropic.com

Научиться проектировать AI‑решения для бизнеса можно на курсе «AI-архитектор».

Вышла Claude Opus 4.5

Первые впечатления

Безопасность и согласованность

Новое в Claude Developer Platform

Обновления продуктов

Другие новости

Информация