
Интернет снова взорвался новостью от Anthropic: вышла модель Claude Sonnet 4.5, которую уже окрестили лучшим кодирующим ИИ в мире. Сообщают о невероятных успехах в бенчмарках, снижении галлюцинаций и новой гибридной системе рассуждений.
Но за громкими заголовками всегда скрывается вопрос: а что на практике? Оправдывает ли модель ажиотаж и сможет ли она действительно стать тем самым «никогда не спящим аналитиком» в вашем проекте? В этой статье мы пропустим Claude Sonnet 4.5 через серию реальных задач — от генерации сложного кода до написания технических статей — и сравним его с главными конкурентами.
Тесты и сравнения, описанные в статье, я проводил в моделях разных производителей. Для быстрого доступа к конкретной модели моим главным рабочим инструментом стал BotHub. Это тот случай, когда агрегатор действительно упрощает жизнь, собирая всё в одном окне. Если вы устали от постоянных переключений и хотите получить удобный доступ к Claude, ChatGPT, Gemini и другим моделям без лишних сложностей, просто зарегистрируйтесь в BotHub по этой ссылке. Бонус при регистрации 100 000 капсов.
Введение
Лучшая модель искусственного интеллекта для программирования стала ещё лучше.
В последнее время я буквально помешался на Claude, всё думаю о нём. А теперь, когда Anthropic выпустили Claude Sonnet 4.5, — сна мне, похоже, больше не видать. Моя девушка уверена, что я её игнорирую, потому что всё время занят Claude.
Четвёртый Claude стал надёжнее, уже напоминал толкового мидла, но всё ещё нуждался в лёгких подталкиваниях. И вот выходит 4.5 — и интернет зашумел: дескать, он держится часами, не сбиваясь с темы, разматывает логические узлы, будто расследует любимый детектив.
Если вы по уши в инженерном менеджменте, лавируете между дедлайнами, подкрадывающимися, как туман, или вы тот любопытный разработчик, который впервые приглядывается к ИИ и думает, сможет ли он наконец соединить идею с состоянием «готово», — подвиньтесь ближе.
Эволюция Claude за 60 секунд. Просто взгляните, насколько огромен скачок между версиями Claude Sonnet 3.7, 4.0 и 4.5.
Claude Sonnet 3.7:

Sonnet 4:

А теперь — настоящий зверь, версия 4.5:

Основные особенности Claude Sonnet 4.5
Модель обучалась на уникальной смеси данных — как из открытых источников интернета по состоянию на июль 2025 года, так и на закрытых данных от сторонних партнёров.
Claude Sonnet 4.5 — это гибридная модель рассуждения: пользователь может выбирать между стандартным режимом с быстрыми ответами и режимом «расширенного мышления», где модель размышляет дольше.
В SWE‑бенчмарках Claude Sonnet 4.5 демонстрирует лучшие результаты и более надёжный код, чем предшественники.
Он реже выдаёт галлюцинации и честно признаёт, если чего‑то не знает.
Помимо всего этого, Claude Sonnet 4.5 — самая согласованная из всех моделей Anthropic.
Давайте рассмотрим некоторые из этих особенностей более подробно.
Параметры и возможности модели
Она поддерживает до 64 000 выходных (то есть генерируемых) токенов (!), что особенно ценно для создания развёрнутых фрагментов кода и подробного планирования.
Как и в случае Sonnet 4, у 4.5 две версии контекстного окна: 200 000 токенов (основная) и 1 000 000.
Версия с 1 000 000 контекста до сих пор считается бета‑версией; чтобы она заработала, в API нужно передать ключ
betas=["context-1m-2025-08-07"]
.Как и некоторые других моделях (напр., ChatGPT 5, Grok 4), Sonnet 4.5 предлагает режим extended thinking — для сложных задач модель задействует более длинный процесс размышления, конечно же визуализируя цепочку размышлений.
Умное управление контекстным окном. Теперь API умеет работать разумно в тех случаях, когда модель достигает предела объёма контекста. Вместо того чтобы выдавать ошибку, если разговор становится слишком длинным, Claude Sonnet 4.5 продолжит ответ до максимально доступного объёма и ясно укажет, почему остановился. Это избавляет пользователей от раздражающих прерываний и позволяет использовать всё доступное пространство контекста до последнего токена.
Если сравнить с Opus 4.1... Стиль и тон: Sonnet 4.5 предпочитает осторожность
Комментарии Sonnet 4.5 исправляют код, но звучат менее уверенно, чем у Opus 4.1, — хотя всё‑таки решительнее, чем у Sonnet 4.
В 87% комментариев Sonnet 4.5 присутствовали фрагменты кода или диффы — почти как у Sonnet 4 (90%) и Opus 4.1 (91%).
Отличие — в манере: диффы Opus читаются как точечные хирургические правки, а Sonnet 4.5 часто обрамляет их рассуждениями, предлагает или рассматривает изменения, вместо того чтобы утверждать их уверенно.
Осторожная лексика...

В 34% своих практических комментариев Sonnet 4.5 использует слова вроде возможно, может быть, вероятно. Например:
— «Избыточное выделение памяти: кеш не используется. Конструктор резервирует 4 КБ, которые нигде не применяются… Рекомендуется удалитьcache_buffer
».
— «Удалите пустой блокtry
/except
— вероятно, это заготовка».Для сравнения: у Opus 4.1 — ~28%, у Sonnet 4 — ~26%.
Такая манера создаёт ощущение диалога: будто модель размышляет вместе с вами, а не выносит вердикт.
...И уверенная лексика
При этом Sonnet 4.5 уравновешивает осторожность всплесками решительности — в 39% случаев (против 18% у Sonnet 4 и 23% у Opus 4.1). Например:
— «Критическая ошибка: отсутствует префиксself.
, из‑за чего ломаются все методы API. Пока это не исправлено, каждый из них будет выбрасыватьAttributeError
».
— «Потенциальное переполнение целого числа. Счётчикoptimization_cycle_count
увеличивается без ограничений — и переполнится примерно через 414 дней работы».
Иными словами, модель колеблется между осторожностью и уверенностью, порой достаточно резко.
Бенчмарки
Новая версия опирается на прочный фундамент Claude 4 и достигает выдающихся результатов в сфере программирования и разработки интеллектуальных агентов.
Модель продемонстрировала улучшения в широком спектре тестов, включая логическое рассуждение и математику:

Тест OSWorld
Claude Sonnet 4.5 показывает серьёзный прогресс в бенчмарке OSWorld. В этом тесте, проверяющем способности ИИ выполнять реальные компьютерные задачи, 4.5 делает резкий прыжок с 42,2% у 4-й версии, четыре месяца назад, до 61,4% сейчас — наглядный пример масштабного прогресса, и именно это, пожалуй, одна из самых заметных сторон Sonnet 4.5.
Кодинг: Sonnet 4.5 обошёл Opus

В SWE‑bench Verified — испытании, имитирующем реальные инженерные задачи, — Claude занимает прочное первое место, набрав показатель 77,2%. Он показал себя лучше, чем ведущие модели — например, ChatGPT 5 Codex, Gemini 2.5 Pro, — и даже превосходит Opus 4.1. Именно поэтому его и называют лучшей моделью для кодинга.
Меньше галлюцинаций
Claude Sonnet 4.5 стал гораздо устойчивее к галлюцинациям. Он точнее подбирает факты и, что особенно важно, умеет определять и отвергать вопросы, построенные на ложных предпосылках.
Во время тестов модели сначала задавали прямой вопрос о несуществующем понятии, а затем — второй, в котором уже предполагалось, что это понятие реально. Если Claude правильно указывал на ложность первой предпосылки, но затем соглашался с ней во втором вопросе, это считалось проявлением «нечестности».

Согласованность
Ознакомиться с полным набором оценок по безопасности и согласованности можно в техническом отчете Claude Sonnet 4.5.

Успех в областях финансов, юриспруденции, медицины и точных наук
Эксперты из этих сфер отметили, что Sonnet 4.5 демонстрирует резко возросшие знания и аналитические способности в своих областях — по сравнению с предыдущими моделями, включая Opus 4.1.
Скриншоты




Бенчмарки — не панацея, но они показывают, насколько выросла мощь модели. Opus казался немного медлительным, а Sonnet 4.5 — наоборот, стремителен и отзывчив. Не удивлюсь, если вскоре Anthropic представит дорогую, но ещё более продвинутую версию — Opus 4.5.
Доступность и цены
А теперь — главное: Sonnet 4.5 приближается к уровню Opus 4.1, но стоит в разы дешевле. Для команд, которые масштабно проверяют код, это настоящий золотой компромисс между качеством и ценой.
Цены на новую модель остались на уровне предшественницы: 3 $/млн входных токенов и 15 $/млн выходных. По моему мнению, выглядит отличным соотношением цены и качества с учётом заявленной производительности. Это заметно дешевле, чем у Claude Opus 4.1 (15 $/75 $), но немного дороже ChatGPT 5 и ChatGPT 5 Codex, где цены составляют 1,25 $/10 $.
Тесты нейросети Claude Sonnet 4.5
В интерфейсе, где я тестировал модели, есть одна особенно любопытная опция — галочка ✅ Автоматическое рассуждение. Всегда ставлю её в автоматический режим — пусть думает сколько нужно. Как и следует из названия, при активном флажке система сама решает, сколько времени потратить на размышления.
Иногда делаю наоборот — флажок выключаю, но выкручиваю параметр длины рассуждений на максимум.
Если поставить эту галочку, соседний контрол исчезает.
Слайдер 🎚️ Максимальное количество токенов для рассуждений. Есть у Claude Sonnet 4.5, Claude Opus 4.1, Gemini 2.5 Pro и ещё ряда моделей.

Список 🔽 Глубина рассуждений — знакомая штука пользователям семейства ChatGPT.

Чтобы не ограничивать модели в длине ответа, я выставлял параметр Степень подробности/Максимальное количество токенов (опять же тип регулятора различается у моделей) на максимум.
Тест 1. Презентация о transformers
В прошлый раз, если помните, мы делали подобный опыт с Claude Sonnet 4 — тогда всё прошло вроде бы гладко. Но что если провести схожий эксперимент с новыми моделями?
И сразу промпт:

Да, сразу отмечу, что я решил сгенерировать по два варианта на каждой модели, чтобы выбрать из них лучший. Подобную методику применяют и в бенчмарках, хотя там количество «бросков» обычно больше — от четырёх.
А сколько вообще возможно?

Итак, результаты. Посмотрим, кто проявил себя лучше в трансформерной олимпиаде.
Claude Sonnet 4.5
Результаты можно открыть в новой вкладке, нажав средней кнопкой мыши на Result или Edit on CodePen.
Честно говоря, презентация получилась довольно классической, почти учебной. Данные в примерах генерируются случайно (на 2-м слайде при нажатии на «Обновить матрицу» сетка заполняется случайными числами — ведь это чистый браузерный JavaScript).
Главное — без багов. Ну, почти. На шестом слайде узлы нейросети немного «нервничают»: скачут туда‑сюда между событиями mouseover и mouseout. Почему? Оказалось, конфликт систем координат, а не злосчастный translate
из CSS‑стилей. Зато кнопка запуска анимации на этом же слайде работает идеально — уже победа.
Claude Opus 4.1
Эта презентация скорее подошла бы как вспомогательный элемент, сопровождение живой презентации. Она содержит мало теоретической информации, а в основном это интерактивные элементы, которые малопонятны без информационного сопровождения в виде живого рассказчика.
1-й слайд глючит — при щелчках по элементам ничего не происходит. Возможно, забыли инициализацию событий.
Gemini 2.5 Pro
Gemini, как обычно, выдал аккуратный, академичный вариант. Текст — чистый, логичный, будто его писал методист из МИТ.
С визуалами сложнее. Парочка слайдов вызывают лёгкое недоумение: например, на первом при наведении курсора часть схемы внезапно исчезает. Сюжетный твист? Или просто непонятная логика анимации «до» и «после».
Но что важно — структура читается, а если задать желаемый тон в промпте, Gemini смог бы переписать его более интересно (я ведь оставил этот выбор модели, помните?).
ChatGPT 5
Эта презентация получилась наиболее выразительной. На трёх слайдах (1-м, 2-м и 4-м) добавлены интерактивные слайдеры для настройки температуры — можно наглядно увидеть, как меняется плотность связей между параметрами.
Фишка ChatGPT 5 — в гибкости. Он динамически регулирует длину и глубину ответов без всяких переключателей и ручных настроек, модель сама чувствует контекст.
С точки зрения языка именно этот вариант кажется наиболее доступным для широкой аудитории, даже в сравнении с Claude Sonnet 4.5.
Тест 2. Написание статьи о сравнении фреймворков
Ну и, конечно, письмо. Как отмечают тестеры, в тестах на креативное письмо Sonnet 4.5 — в числе лучших, и этот диапазон чувствуется даже в деловых черновиках. Может сменить тон, подстроиться под аудиторию руководителей, сохранить сквозную нить рассуждений, если просишь сделать стиль лаконичнее или под другим углом.
Однако мы рассмотрим немного другое: не креативное письмо, а статью‑реферат о сравнении фреймворков.
В мире мобильной разработки выбор между React Native, Flutter и NativeScript — это уже классика. Мы дали тем же четырем языковым моделям идентичный промпт. Давайте посмотрим, кто из них выдал по‑настоящему качественный, глубокий и полезный материал.
Claude Sonnet 4.5: структурированный и методичный технолог
Текст от Sonnet 4.5

Статья от Sonnet 4.5 с первых же строк производит впечатление основательности. Это не просто генерация текста по пунктам ТЗ, а хорошо продуманный материал.
Sonnet не просто перечисляет факты из таблицы, а объясняет архитектурные причины тех или иных явлений. Например, он четко разъясняет, что производительность React Native упирается в JavaScript Bridge, а мощь Flutter — в компиляцию в нативный ARM‑код и движок Skia. Это уровень понимания, который оценит продвинутый разработчик.
Оценка: 5/5.
Claude Opus 4.1: академичный и взвешенный аналитик
Текст от Opus 4.1

Opus дает ощущение еще большей взрослости и сбалансированности. Если Sonnet — блестящий инженер, то Opus — расставляет стратегические акценты.
Уже во введении Opus смещает акцент с технической на бизнес‑проблему. Это сразу находит отклик у целевой аудитории — тимлидов и владельцев продуктов.
Opus единственный, кто упомянул о «новой архитектуре Fabric и TurboModules» в React Native, которая решает имеющиеся проблемы. Это указывает на то, что модель следит за развитием технологий.
Описывая уход Airbnb от React Native, модель добавляет «Хотя последняя и отказалась от него...», что является признаком критического мышления и стремления к объективности.
Это анализ на уровне CTO (технического директора).
Оценка: 5/5.
Gemini 2.5 Pro: практичный и лаконичный инженер
Текст от Gemini 2.5 Pro

Статья от Gemini читается очень легко. Она хорошо структурирована, лаконична и нацелена на быструю передачу сути.
В рекомендациях для NativeScript Gemini дает, возможно, самую четкую и практичную формулировку: «абсолютный чемпион по переиспользованию кода с веб‑проектами на Angular и Vue». Это именно тот язык, на котором говорят разработчики при принятии решений.
Из минусов. Не хватает той самой глубины и архитектурных деталей, которые были у моделей Claude. Объяснения более поверхностны. Например, про Skia сказано лишь «обеспечивает плавную анимацию», без упоминания компиляции в нативный код.
Оценка: 4,5/5.
ChatGPT 5: Уверенный генералист
Текст от ChatGPT 5

Ответ ChatGPT производит смешанное впечатление. С одной стороны, он уверенно следует структуре (все пункты ТЗ выполнены, есть введение, таблица, анализ, рекомендации), с другой — чувствуется недостаток глубины и детализации.
Также ChatGPT 5 предложил интересный ход: в конце добавить сравнение по реальным кейсам.
Теперь к минусам:
Слишком общая таблица. Критерии описаны очень размыто: «средняя, зависит от...», «почти нативный», «активно растёт». После конкретных цифр и терминов у конкурентов это выглядит слабо.
Поверхностный анализ. Выводы вроде «Flutter особенно силён в создании сложных и красивых UI» — нет объяснения почему.
Фактические неточности. Утверждение, что NativeScript обеспечивает «прямой доступ к нативным API без „мостов“», является упрощением. На низком уровне взаимодействие с платформой все равно требует механизмов связи, что и отмечали другие модели.
Вердикт: ChatGPT генерирует структурно правильный, но довольно поверхностный текст, который уступает статьям конкурентов по информационной плотности и технической глубине.
Оценка: 4/5.
Решающий момент: кто же победил в этой битве?
Проанализировав все четыре работы, можно сделать несколько ключевых наблюдений.
Если вам нужна максимально глубокая, аналитическая и технически подкованная статья — ваш выбор между Sonnet 4.5 и Opus 4.1. Это материалы, после прочтения которых не возникает дополнительных вопросов.
Если вам нужен четкий, структурированный и быстрый гайд для принятия решения без лишней воды — смело берите статью от Gemini 2.5 Pro.
Результат от ChatGPT стоит считать хорошим базовым уровнем, но, если нужны дополнительные детали и экспертиза, его потребовалось бы дорабатывать.
Sonnet 4.5: золотая середина между ценой и результатом
Anthropic позиционирует Sonnet 4.5 как шаг к более самостоятельному и агентному ИИ — системе, способной рассуждать и действовать с дальним прицелом. В ревью кода это проявляется в более насыщенных, осторожных и разнообразных комментариях.
Для команд:
Если вы цените решительность и точечные правки, Opus 4.1 (или GPT-5 Codex) всё ещё задаёт планку.
Если вам нужен ревьюер, который находит критические проблемы повсюду, даже за рамками поставленной задачи, Sonnet 4.5 приятно удивит.
А если важнее практичное соотношение цены и качества, Sonnet 4.5 вновь самый разумный выбор: почти точность Opus — за небольшую часть его цены.
Как ни крути, Sonnet 4.5 меняет саму ткань ревью. Она звучит человечнее — не всегда лаконичнее, но более пытливо, осторожно и, порой, по‑настоящему точно там, где вы и не ожидали.
Если возможности этой модели отзываются в вас — возьмите свой промпт и поиграйте. Какая задача мучает вас уже давно? Пусть Sonnet 4.5 попробует.
Если вы по уши в инженерном руководстве, лавируете между дедлайнами, подкрадывающимися, как туман, или вы тот самый любопытный разработчик, впервые примеряющий на себя ИИ, задаваясь вопросом, сможет ли он наконец закрыть пропасть между идеей и «готово», — прислушайтесь.