Интернет снова взорвался новостью от Anthropic: вышла модель Claude Sonnet 4.5, которую уже окрестили лучшим кодирующим ИИ в мире. Сообщают о невероятных успехах в бенчмарках, снижении галлюцинаций и новой гибридной системе рассуждений.

Но за громкими заголовками всегда скрывается вопрос: а что на практике? Оправдывает ли модель ажиотаж и сможет ли она действительно стать тем самым «никогда не спящим аналитиком» в вашем проекте? В этой статье мы пропустим Claude Sonnet 4.5 через серию реальных задач — от генерации сложного кода до написания технических статей — и сравним его с главными конкурентами.


Тесты и сравнения, описанные в статье, я проводил в моделях разных производителей. Для быстрого доступа к конкретной модели моим главным рабочим инструментом стал BotHub. Это тот случай, когда агрегатор действительно упрощает жизнь, собирая всё в одном окне. Если вы устали от постоянных переключений и хотите получить удобный доступ к Claude, ChatGPT, Gemini и другим моделям без лишних сложностей, просто зарегистрируйтесь в BotHub по этой ссылке. Бонус при регистрации 100 000 капсов.


Введение

Лучшая модель искусственного интеллекта для программирования стала ещё лучше.

В последнее время я буквально помешался на Claude, всё думаю о нём. А теперь, когда Anthropic выпустили Claude Sonnet 4.5, — сна мне, похоже, больше не видать. Моя девушка уверена, что я её игнорирую, потому что всё время занят Claude.

Четвёртый Claude стал надёжнее, уже напоминал толкового мидла, но всё ещё нуждался в лёгких подталкиваниях. И вот выходит 4.5 — и интернет зашумел: дескать, он держится часами, не сбиваясь с темы, разматывает логические узлы, будто расследует любимый детектив.

Если вы по уши в инженерном менеджменте, лавируете между дедлайнами, подкрадывающимися, как туман, или вы тот любопытный разработчик, который впервые приглядывается к ИИ и думает, сможет ли он наконец соединить идею с состоянием «готово», — подвиньтесь ближе.

Эволюция Claude за 60 секунд. Просто взгляните, насколько огромен скачок между версиями Claude Sonnet 3.7, 4.0 и 4.5.

Claude Sonnet 3.7:

Sonnet 4:

А теперь — настоящий зверь, версия 4.5:

Основные особенности Claude Sonnet 4.5

  • Модель обучалась на уникальной смеси данных — как из открытых источников интернета по состоянию на июль 2025 года, так и на закрытых данных от сторонних партнёров.

  • Claude Sonnet 4.5 — это гибридная модель рассуждения: пользователь может выбирать между стандартным режимом с быстрыми ответами и режимом «расширенного мышления», где модель размышляет дольше.

  • В SWE‑бенчмарках Claude Sonnet 4.5 демонстрирует лучшие результаты и более надёжный код, чем предшественники.

  • Он реже выдаёт галлюцинации и честно признаёт, если чего‑то не знает.

  • Помимо всего этого, Claude Sonnet 4.5 — самая согласованная из всех моделей Anthropic.

Давайте рассмотрим некоторые из этих особенностей более подробно.

Параметры и возможности модели

  • Она поддерживает до 64 000 выходных (то есть генерируемых) токенов (!), что особенно ценно для создания развёрнутых фрагментов кода и подробного планирования.

  • Как и в случае Sonnet 4, у 4.5 две версии контекстного окна: 200 000 токенов (основная) и 1 000 000.

  • Версия с 1 000 000 контекста до сих пор считается бета‑версией; чтобы она заработала, в API нужно передать ключ betas=["context-1m-2025-08-07"].

  • Как и некоторые других моделях (напр., ChatGPT 5, Grok 4), Sonnet 4.5 предлагает режим extended thinking — для сложных задач модель задействует более длинный процесс размышления, конечно же визуализируя цепочку размышлений.

  • Умное управление контекстным окном. Теперь API умеет работать разумно в тех случаях, когда модель достигает предела объёма контекста. Вместо того чтобы выдавать ошибку, если разговор становится слишком длинным, Claude Sonnet 4.5 продолжит ответ до максимально доступного объёма и ясно укажет, почему остановился. Это избавляет пользователей от раздражающих прерываний и позволяет использовать всё доступное пространство контекста до последнего токена.

Если сравнить с Opus 4.1... Стиль и тон: Sonnet 4.5 предпочитает осторожность

Комментарии Sonnet 4.5 исправляют код, но звучат менее уверенно, чем у Opus 4.1, — хотя всё‑таки решительнее, чем у Sonnet 4.

  • В 87% комментариев Sonnet 4.5 присутствовали фрагменты кода или диффы — почти как у Sonnet 4 (90%) и Opus 4.1 (91%).

  • Отличие — в манере: диффы Opus читаются как точечные хирургические правки, а Sonnet 4.5 часто обрамляет их рассуждениями, предлагает или рассматривает изменения, вместо того чтобы утверждать их уверенно.

Осторожная лексика...

  • В 34% своих практических комментариев Sonnet 4.5 использует слова вроде возможно, может быть, вероятно. Например:
    — «Избыточное выделение памяти: кеш не используется. Конструктор резервирует 4 КБ, которые нигде не применяются… Рекомендуется удалить cache_buffer».
    — «Удалите пустой блок try/except — вероятно, это заготовка».

  • Для сравнения: у Opus 4.1 — ~28%, у Sonnet 4 — ~26%.

Такая манера создаёт ощущение диалога: будто модель размышляет вместе с вами, а не выносит вердикт.

...И уверенная лексика

  • При этом Sonnet 4.5 уравновешивает осторожность всплесками решительности — в 39% случаев (против 18% у Sonnet 4 и 23% у Opus 4.1). Например:
     — «Критическая ошибка: отсутствует префикс self., из‑за чего ломаются все методы API. Пока это не исправлено, каждый из них будет выбрасывать AttributeError».
     — «Потенциальное переполнение целого числа. Счётчик optimization_cycle_count увеличивается без ограничений — и переполнится примерно через 414 дней работы».

Иными словами, модель колеблется между осторожностью и уверенностью, порой достаточно резко.

Бенчмарки

Новая версия опирается на прочный фундамент Claude 4 и достигает выдающихся результатов в сфере программирования и разработки интеллектуальных агентов.

Модель продемонстрировала улучшения в широком спектре тестов, включая логическое рассуждение и математику:

Claude Sonnet 4.5, по заявлениям Anthropic, самая мощная модель на сегодняшний день
Claude Sonnet 4.5, по заявлениям Anthropic, самая мощная модель на сегодняшний день

Тест OSWorld

Claude Sonnet 4.5 показывает серьёзный прогресс в бенчмарке OSWorld. В этом тесте, проверяющем способности ИИ выполнять реальные компьютерные задачи, 4.5 делает резкий прыжок с 42,2% у 4-й версии, четыре месяца назад, до 61,4% сейчас — наглядный пример масштабного прогресса, и именно это, пожалуй, одна из самых заметных сторон Sonnet 4.5.

Кодинг: Sonnet 4.5 обошёл Opus

В SWE‑bench Verified — испытании, имитирующем реальные инженерные задачи, — Claude занимает прочное первое место, набрав показатель 77,2%. Он показал себя лучше, чем ведущие модели — например, ChatGPT 5 Codex, Gemini 2.5 Pro, — и даже превосходит Opus 4.1. Именно поэтому его и называют лучшей моделью для кодинга.

Меньше галлюцинаций

Claude Sonnet 4.5 стал гораздо устойчивее к галлюцинациям. Он точнее подбирает факты и, что особенно важно, умеет определять и отвергать вопросы, построенные на ложных предпосылках.

Во время тестов модели сначала задавали прямой вопрос о несуществующем понятии, а затем — второй, в котором уже предполагалось, что это понятие реально. Если Claude правильно указывал на ложность первой предпосылки, но затем соглашался с ней во втором вопросе, это считалось проявлением «нечестности».

Согласованность

Ознакомиться с полным набором оценок по безопасности и согласованности можно в техническом отчете Claude Sonnet 4.5.

Общие показатели несогласованного поведения по данным автоматического поведенческого аудитора (чем ниже, тем лучше). К несогласованным проявлениям относятся в том числе: обман, льстивость, поощрение бредовых идей и следование вредоносному системному промпту
Общие показатели несогласованного поведения по данным автоматического поведенческого аудитора (чем ниже, тем лучше). К несогласованным проявлениям относятся в том числе: обман, льстивость, поощрение бредовых идей и следование вредоносному системному промпту

Успех в областях финансов, юриспруденции, медицины и точных наук

Эксперты из этих сфер отметили, что Sonnet 4.5 демонстрирует резко возросшие знания и аналитические способности в своих областях — по сравнению с предыдущими моделями, включая Opus 4.1.

Скриншоты

Бенчмарки — не панацея, но они показывают, насколько выросла мощь модели. Opus казался немного медлительным, а Sonnet 4.5 — наоборот, стремителен и отзывчив. Не удивлюсь, если вскоре Anthropic представит дорогую, но ещё более продвинутую версию — Opus 4.5.

Доступность и цены

А теперь — главное: Sonnet 4.5 приближается к уровню Opus 4.1, но стоит в разы дешевле. Для команд, которые масштабно проверяют код, это настоящий золотой компромисс между качеством и ценой.

Цены на новую модель остались на уровне предшественницы: 3 $/млн входных токенов и 15 $/млн выходных. По моему мнению, выглядит отличным соотношением цены и качества с учётом заявленной производительности. Это заметно дешевле, чем у Claude Opus 4.1 (15 $/75 $), но немного дороже ChatGPT 5 и ChatGPT 5 Codex, где цены составляют 1,25 $/10 $.

Тесты нейросети Claude Sonnet 4.5

В интерфейсе, где я тестировал модели, есть одна особенно любопытная опция — галочка ✅ Автоматическое рассуждение. Всегда ставлю её в автоматический режим — пусть думает сколько нужно. Как и следует из названия, при активном флажке система сама решает, сколько времени потратить на размышления.

Иногда делаю наоборот — флажок выключаю, но выкручиваю параметр длины рассуждений на максимум.

Если поставить эту галочку, соседний контрол исчезает.

  • Слайдер 🎚️ Максимальное количество токенов для рассуждений. Есть у Claude Sonnet 4.5, Claude Opus 4.1, Gemini 2.5 Pro и ещё ряда моделей.

  • Список 🔽 Глубина рассуждений — знакомая штука пользователям семейства ChatGPT.

Чтобы не ограничивать модели в длине ответа, я выставлял параметр Степень подробности/Максимальное количество токенов (опять же тип регулятора различается у моделей) на максимум.

Тест 1. Презентация о transformers

В прошлый раз, если помните, мы делали подобный опыт с Claude Sonnet 4 — тогда всё прошло вроде бы гладко. Но что если провести схожий эксперимент с новыми моделями?

И сразу промпт:

Да, сразу отмечу, что я решил сгенерировать по два варианта на каждой модели, чтобы выбрать из них лучший. Подобную методику применяют и в бенчмарках, хотя там количество «бросков» обычно больше — от четырёх.

А сколько вообще возможно?

Итак, результаты. Посмотрим, кто проявил себя лучше в трансформерной олимпиаде.

Claude Sonnet 4.5

Результаты можно открыть в новой вкладке, нажав средней кнопкой мыши на Result или Edit on CodePen.

Честно говоря, презентация получилась довольно классической, почти учебной. Данные в примерах генерируются случайно (на 2-м слайде при нажатии на «Обновить матрицу» сетка заполняется случайными числами — ведь это чистый браузерный JavaScript).

Главное — без багов. Ну, почти. На шестом слайде узлы нейросети немного «нервничают»: скачут туда‑сюда между событиями mouseover и mouseout. Почему? Оказалось, конфликт систем координат, а не злосчастный translate из CSS‑стилей. Зато кнопка запуска анимации на этом же слайде работает идеально — уже победа.

Claude Opus 4.1

Эта презентация скорее подошла бы как вспомогательный элемент, сопровождение живой презентации. Она содержит мало теоретической информации, а в основном это интерактивные элементы, которые малопонятны без информационного сопровождения в виде живого рассказчика.

1-й слайд глючит — при щелчках по элементам ничего не происходит. Возможно, забыли инициализацию событий.

Gemini 2.5 Pro

Gemini, как обычно, выдал аккуратный, академичный вариант. Текст — чистый, логичный, будто его писал методист из МИТ.

С визуалами сложнее. Парочка слайдов вызывают лёгкое недоумение: например, на первом при наведении курсора часть схемы внезапно исчезает. Сюжетный твист? Или просто непонятная логика анимации «до» и «после».

Но что важно — структура читается, а если задать желаемый тон в промпте, Gemini смог бы переписать его более интересно (я ведь оставил этот выбор модели, помните?).

ChatGPT 5

Эта презентация получилась наиболее выразительной. На трёх слайдах (1-м, 2-м и 4-м) добавлены интерактивные слайдеры для настройки температуры — можно наглядно увидеть, как меняется плотность связей между параметрами.

Фишка ChatGPT 5 — в гибкости. Он динамически регулирует длину и глубину ответов без всяких переключателей и ручных настроек, модель сама чувствует контекст.

С точки зрения языка именно этот вариант кажется наиболее доступным для широкой аудитории, даже в сравнении с Claude Sonnet 4.5.

Тест 2. Написание статьи о сравнении фреймворков

Ну и, конечно, письмо. Как отмечают тестеры, в тестах на креативное письмо Sonnet 4.5 — в числе лучших, и этот диапазон чувствуется даже в деловых черновиках. Может сменить тон, подстроиться под аудиторию руководителей, сохранить сквозную нить рассуждений, если просишь сделать стиль лаконичнее или под другим углом.

Однако мы рассмотрим немного другое: не креативное письмо, а статью‑реферат о сравнении фреймворков.

В мире мобильной разработки выбор между React Native, Flutter и NativeScript — это уже классика. Мы дали тем же четырем языковым моделям идентичный промпт. Давайте посмотрим, кто из них выдал по‑настоящему качественный, глубокий и полезный материал.

Claude Sonnet 4.5: структурированный и методичный технолог

Текст от Sonnet 4.5

Статья от Sonnet 4.5 с первых же строк производит впечатление основательности. Это не просто генерация текста по пунктам ТЗ, а хорошо продуманный материал.

Sonnet не просто перечисляет факты из таблицы, а объясняет архитектурные причины тех или иных явлений. Например, он четко разъясняет, что производительность React Native упирается в JavaScript Bridge, а мощь Flutter — в компиляцию в нативный ARM‑код и движок Skia. Это уровень понимания, который оценит продвинутый разработчик.

Оценка: 5/5.

Claude Opus 4.1: академичный и взвешенный аналитик

Текст от Opus 4.1

Opus дает ощущение еще большей взрослости и сбалансированности. Если Sonnet — блестящий инженер, то Opus — расставляет стратегические акценты.

Уже во введении Opus смещает акцент с технической на бизнес‑проблему. Это сразу находит отклик у целевой аудитории — тимлидов и владельцев продуктов.

Opus единственный, кто упомянул о «новой архитектуре Fabric и TurboModules» в React Native, которая решает имеющиеся проблемы. Это указывает на то, что модель следит за развитием технологий.

Описывая уход Airbnb от React Native, модель добавляет «Хотя последняя и отказалась от него...», что является признаком критического мышления и стремления к объективности.

Это анализ на уровне CTO (технического директора).

Оценка: 5/5.

Gemini 2.5 Pro: практичный и лаконичный инженер

Текст от Gemini 2.5 Pro

Статья от Gemini читается очень легко. Она хорошо структурирована, лаконична и нацелена на быструю передачу сути.

В рекомендациях для NativeScript Gemini дает, возможно, самую четкую и практичную формулировку: «абсолютный чемпион по переиспользованию кода с веб‑проектами на Angular и Vue». Это именно тот язык, на котором говорят разработчики при принятии решений.

Из минусов. Не хватает той самой глубины и архитектурных деталей, которые были у моделей Claude. Объяснения более поверхностны. Например, про Skia сказано лишь «обеспечивает плавную анимацию», без упоминания компиляции в нативный код.

Оценка: 4,5/5.

ChatGPT 5: Уверенный генералист

Текст от ChatGPT 5

Ответ ChatGPT производит смешанное впечатление. С одной стороны, он уверенно следует структуре (все пункты ТЗ выполнены, есть введение, таблица, анализ, рекомендации), с другой — чувствуется недостаток глубины и детализации.

Также ChatGPT 5 предложил интересный ход: в конце добавить сравнение по реальным кейсам.

Теперь к минусам:

  • Слишком общая таблица. Критерии описаны очень размыто: «средняя, зависит от...», «почти нативный», «активно растёт». После конкретных цифр и терминов у конкурентов это выглядит слабо.

  • Поверхностный анализ. Выводы вроде «Flutter особенно силён в создании сложных и красивых UI» — нет объяснения почему.

  • Фактические неточности. Утверждение, что NativeScript обеспечивает «прямой доступ к нативным API без „мостов“», является упрощением. На низком уровне взаимодействие с платформой все равно требует механизмов связи, что и отмечали другие модели.

Вердикт: ChatGPT генерирует структурно правильный, но довольно поверхностный текст, который уступает статьям конкурентов по информационной плотности и технической глубине.

Оценка: 4/5.

Решающий момент: кто же победил в этой битве?

Проанализировав все четыре работы, можно сделать несколько ключевых наблюдений.

  • Если вам нужна максимально глубокая, аналитическая и технически подкованная статья — ваш выбор между Sonnet 4.5 и Opus 4.1. Это материалы, после прочтения которых не возникает дополнительных вопросов.

  • Если вам нужен четкий, структурированный и быстрый гайд для принятия решения без лишней воды — смело берите статью от Gemini 2.5 Pro.

  • Результат от ChatGPT стоит считать хорошим базовым уровнем, но, если нужны дополнительные детали и экспертиза, его потребовалось бы дорабатывать.

Sonnet 4.5: золотая середина между ценой и результатом

Anthropic позиционирует Sonnet 4.5 как шаг к более самостоятельному и агентному ИИ — системе, способной рассуждать и действовать с дальним прицелом. В ревью кода это проявляется в более насыщенных, осторожных и разнообразных комментариях.

Для команд:

  • Если вы цените решительность и точечные правки, Opus 4.1 (или GPT-5 Codex) всё ещё задаёт планку.

  • Если вам нужен ревьюер, который находит критические проблемы повсюду, даже за рамками поставленной задачи, Sonnet 4.5 приятно удивит.

  • А если важнее практичное соотношение цены и качества, Sonnet 4.5 вновь самый разумный выбор: почти точность Opus — за небольшую часть его цены.

Как ни крути, Sonnet 4.5 меняет саму ткань ревью. Она звучит человечнее — не всегда лаконичнее, но более пытливо, осторожно и, порой, по‑настоящему точно там, где вы и не ожидали.


Если возможности этой модели отзываются в вас — возьмите свой промпт и поиграйте. Какая задача мучает вас уже давно? Пусть Sonnet 4.5 попробует.

Если вы по уши в инженерном руководстве, лавируете между дедлайнами, подкрадывающимися, как туман, или вы тот самый любопытный разработчик, впервые примеряющий на себя ИИ, задаваясь вопросом, сможет ли он наконец закрыть пропасть между идеей и «готово», — прислушайтесь.

Only registered users can participate in poll. Log in, please.
Какую модель ИИ вы используете для программирования чаще всего?
49.23%Claude Sonnet 4.532
9.23%Claude Sonnet 46
1.54%Claude Sonnet 3.71
7.69%Claude Opus 4.15
36.92%ChatGPT 524
4.62%ChatGPT o33
1.54%ChatGPT o1 pro1
3.08%ChatGPT 4.12
6.15%GhatGPT Codex4
15.38%Gemini 2.5 Pro10
1.54%YandexGPT 5.1 Pro1
7.69%Grok 45
0%Grok 30
13.85%DeepSeek 3.19
7.69%Другое5
65 users voted. 15 users abstained.