Claude Sonnet 4.5 vs Opus 4.1 vs ChatGPT 5: какая нейросеть лучше в 2025 году? / Хабр

Интернет снова взорвался новостью от Anthropic: вышла модель Claude Sonnet 4.5, которую уже окрестили лучшим кодирующим ИИ в мире. Сообщают о невероятных успехах в бенчмарках, снижении галлюцинаций и новой гибридной системе рассуждений.

Но за громкими заголовками всегда скрывается вопрос: а что на практике? Оправдывает ли модель ажиотаж и сможет ли она действительно стать тем самым «никогда не спящим аналитиком» в вашем проекте? В этой статье мы пропустим Claude Sonnet 4.5 через серию реальных задач — от генерации сложного кода до написания технических статей — и сравним его с главными конкурентами.

Тесты и сравнения, описанные в статье, я проводил в моделях разных производителей. Для быстрого доступа к конкретной модели моим главным рабочим инструментом стал BotHub. Это тот случай, когда агрегатор действительно упрощает жизнь, собирая всё в одном окне. Если вы устали от постоянных переключений и хотите получить удобный доступ к Claude, ChatGPT, Gemini и другим моделям без лишних сложностей, просто зарегистрируйтесь в BotHub по этой ссылке. Бонус при регистрации 100 000 капсов.

Введение

Лучшая модель искусственного интеллекта для программирования стала ещё лучше.

В последнее время я буквально помешался на Claude, всё думаю о нём. А теперь, когда Anthropic выпустили Claude Sonnet 4.5, — сна мне, похоже, больше не видать. Моя девушка уверена, что я её игнорирую, потому что всё время занят Claude.

Четвёртый Claude стал надёжнее, уже напоминал толкового мидла, но всё ещё нуждался в лёгких подталкиваниях. И вот выходит 4.5 — и интернет зашумел: дескать, он держится часами, не сбиваясь с темы, разматывает логические узлы, будто расследует любимый детектив.

Если вы по уши в инженерном менеджменте, лавируете между дедлайнами, подкрадывающимися, как туман, или вы тот любопытный разработчик, который впервые приглядывается к ИИ и думает, сможет ли он наконец соединить идею с состоянием «готово», — подвиньтесь ближе.

Эволюция Claude за 60 секунд. Просто взгляните, насколько огромен скачок между версиями Claude Sonnet 3.7, 4.0 и 4.5.

Claude Sonnet 3.7:

Sonnet 4:

А теперь — настоящий зверь, версия 4.5:

Основные особенности Claude Sonnet 4.5

Модель обучалась на уникальной смеси данных — как из открытых источников интернета по состоянию на июль 2025 года, так и на закрытых данных от сторонних партнёров.
Claude Sonnet 4.5 — это гибридная модель рассуждения: пользователь может выбирать между стандартным режимом с быстрыми ответами и режимом «расширенного мышления», где модель размышляет дольше.
В SWE‑бенчмарках Claude Sonnet 4.5 демонстрирует лучшие результаты и более надёжный код, чем предшественники.
Он реже выдаёт галлюцинации и честно признаёт, если чего‑то не знает.
Помимо всего этого, Claude Sonnet 4.5 — самая согласованная из всех моделей Anthropic.

Давайте рассмотрим некоторые из этих особенностей более подробно.

Параметры и возможности модели

Она поддерживает до 64 000 выходных (то есть генерируемых) токенов (!), что особенно ценно для создания развёрнутых фрагментов кода и подробного планирования.
Как и в случае Sonnet 4, у 4.5 две версии контекстного окна: 200 000 токенов (основная) и 1 000 000.
Версия с 1 000 000 контекста до сих пор считается бета‑версией; чтобы она заработала, в API нужно передать ключ betas=["context-1m-2025-08-07"].
Как и некоторые других моделях (напр., ChatGPT 5, Grok 4), Sonnet 4.5 предлагает режим extended thinking — для сложных задач модель задействует более длинный процесс размышления, конечно же визуализируя цепочку размышлений.
Умное управление контекстным окном. Теперь API умеет работать разумно в тех случаях, когда модель достигает предела объёма контекста. Вместо того чтобы выдавать ошибку, если разговор становится слишком длинным, Claude Sonnet 4.5 продолжит ответ до максимально доступного объёма и ясно укажет, почему остановился. Это избавляет пользователей от раздражающих прерываний и позволяет использовать всё доступное пространство контекста до последнего токена.

Если сравнить с Opus 4.1... Стиль и тон: Sonnet 4.5 предпочитает осторожность

Комментарии Sonnet 4.5 исправляют код, но звучат менее уверенно, чем у Opus 4.1, — хотя всё‑таки решительнее, чем у Sonnet 4.

В 87% комментариев Sonnet 4.5 присутствовали фрагменты кода или диффы — почти как у Sonnet 4 (90%) и Opus 4.1 (91%).
Отличие — в манере: диффы Opus читаются как точечные хирургические правки, а Sonnet 4.5 часто обрамляет их рассуждениями, предлагает или рассматривает изменения, вместо того чтобы утверждать их уверенно.

Осторожная лексика...

В 34% своих практических комментариев Sonnet 4.5 использует слова вроде возможно, может быть, вероятно. Например:
— «Избыточное выделение памяти: кеш не используется. Конструктор резервирует 4 КБ, которые нигде не применяются… Рекомендуется удалить cache_buffer».
— «Удалите пустой блок try/except — вероятно, это заготовка».
Для сравнения: у Opus 4.1 — ~28%, у Sonnet 4 — ~26%.

Такая манера создаёт ощущение диалога: будто модель размышляет вместе с вами, а не выносит вердикт.

...И уверенная лексика

При этом Sonnet 4.5 уравновешивает осторожность всплесками решительности — в 39% случаев (против 18% у Sonnet 4 и 23% у Opus 4.1). Например:
— «Критическая ошибка: отсутствует префикс self., из‑за чего ломаются все методы API. Пока это не исправлено, каждый из них будет выбрасывать AttributeError».
— «Потенциальное переполнение целого числа. Счётчик optimization_cycle_count увеличивается без ограничений — и переполнится примерно через 414 дней работы».

Иными словами, модель колеблется между осторожностью и уверенностью, порой достаточно резко.

Бенчмарки

Новая версия опирается на прочный фундамент Claude 4 и достигает выдающихся результатов в сфере программирования и разработки интеллектуальных агентов.

Модель продемонстрировала улучшения в широком спектре тестов, включая логическое рассуждение и математику:

Claude Sonnet 4.5, по заявлениям Anthropic, самая мощная модель на сегодняшний день

Тест OSWorld

Claude Sonnet 4.5 показывает серьёзный прогресс в бенчмарке OSWorld. В этом тесте, проверяющем способности ИИ выполнять реальные компьютерные задачи, 4.5 делает резкий прыжок с 42,2% у 4-й версии, четыре месяца назад, до 61,4% сейчас — наглядный пример масштабного прогресса, и именно это, пожалуй, одна из самых заметных сторон Sonnet 4.5.

Кодинг: Sonnet 4.5 обошёл Opus

В SWE‑bench Verified — испытании, имитирующем реальные инженерные задачи, — Claude занимает прочное первое место, набрав показатель 77,2%. Он показал себя лучше, чем ведущие модели — например, ChatGPT 5 Codex, Gemini 2.5 Pro, — и даже превосходит Opus 4.1. Именно поэтому его и называют лучшей моделью для кодинга.

Меньше галлюцинаций

Claude Sonnet 4.5 стал гораздо устойчивее к галлюцинациям. Он точнее подбирает факты и, что особенно важно, умеет определять и отвергать вопросы, построенные на ложных предпосылках.

Во время тестов модели сначала задавали прямой вопрос о несуществующем понятии, а затем — второй, в котором уже предполагалось, что это понятие реально. Если Claude правильно указывал на ложность первой предпосылки, но затем соглашался с ней во втором вопросе, это считалось проявлением «нечестности».

Согласованность

Ознакомиться с полным набором оценок по безопасности и согласованности можно в техническом отчете Claude Sonnet 4.5.

Общие показатели несогласованного поведения по данным автоматического поведенческого аудитора (чем ниже, тем лучше). К несогласованным проявлениям относятся в том числе: обман, льстивость, поощрение бредовых идей и следование вредоносному системному промпту

Успех в областях финансов, юриспруденции, медицины и точных наук

Эксперты из этих сфер отметили, что Sonnet 4.5 демонстрирует резко возросшие знания и аналитические способности в своих областях — по сравнению с предыдущими моделями, включая Opus 4.1.

Скриншоты

Бенчмарки — не панацея, но они показывают, насколько выросла мощь модели. Opus казался немного медлительным, а Sonnet 4.5 — наоборот, стремителен и отзывчив. Не удивлюсь, если вскоре Anthropic представит дорогую, но ещё более продвинутую версию — Opus 4.5.

Доступность и цены

А теперь — главное: Sonnet 4.5 приближается к уровню Opus 4.1, но стоит в разы дешевле. Для команд, которые масштабно проверяют код, это настоящий золотой компромисс между качеством и ценой.

Цены на новую модель остались на уровне предшественницы: 3 $/млн входных токенов и 15 $/млн выходных. По моему мнению, выглядит отличным соотношением цены и качества с учётом заявленной производительности. Это заметно дешевле, чем у Claude Opus 4.1 (15 $/75 $), но немного дороже ChatGPT 5 и ChatGPT 5 Codex, где цены составляют 1,25 $/10 $.

Тесты нейросети Claude Sonnet 4.5

В интерфейсе, где я тестировал модели, есть одна особенно любопытная опция — галочка ✅ Автоматическое рассуждение. Всегда ставлю её в автоматический режим — пусть думает сколько нужно. Как и следует из названия, при активном флажке система сама решает, сколько времени потратить на размышления.

Иногда делаю наоборот — флажок выключаю, но выкручиваю параметр длины рассуждений на максимум.

Если поставить эту галочку, соседний контрол исчезает.

Слайдер 🎚️ Максимальное количество токенов для рассуждений. Есть у Claude Sonnet 4.5, Claude Opus 4.1, Gemini 2.5 Pro и ещё ряда моделей.

Список 🔽 Глубина рассуждений — знакомая штука пользователям семейства ChatGPT.

Чтобы не ограничивать модели в длине ответа, я выставлял параметр Степень подробности/Максимальное количество токенов (опять же тип регулятора различается у моделей) на максимум.

Тест 1. Презентация о transformers

В прошлый раз, если помните, мы делали подобный опыт с Claude Sonnet 4 — тогда всё прошло вроде бы гладко. Но что если провести схожий эксперимент с новыми моделями?

И сразу промпт:

Да, сразу отмечу, что я решил сгенерировать по два варианта на каждой модели, чтобы выбрать из них лучший. Подобную методику применяют и в бенчмарках, хотя там количество «бросков» обычно больше — от четырёх.

А сколько вообще возможно?

Итак, результаты. Посмотрим, кто проявил себя лучше в трансформерной олимпиаде.

Claude Sonnet 4.5

Результаты можно открыть в новой вкладке, нажав средней кнопкой мыши на Result или Edit on CodePen.

Честно говоря, презентация получилась довольно классической, почти учебной. Данные в примерах генерируются случайно (на 2-м слайде при нажатии на «Обновить матрицу» сетка заполняется случайными числами — ведь это чистый браузерный JavaScript).

Главное — без багов. Ну, почти. На шестом слайде узлы нейросети немного «нервничают»: скачут туда‑сюда между событиями mouseover и mouseout. Почему? Оказалось, конфликт систем координат, а не злосчастный translate из CSS‑стилей. Зато кнопка запуска анимации на этом же слайде работает идеально — уже победа.

Claude Opus 4.1

Эта презентация скорее подошла бы как вспомогательный элемент, сопровождение живой презентации. Она содержит мало теоретической информации, а в основном это интерактивные элементы, которые малопонятны без информационного сопровождения в виде живого рассказчика.

1-й слайд глючит — при щелчках по элементам ничего не происходит. Возможно, забыли инициализацию событий.

Gemini 2.5 Pro

Gemini, как обычно, выдал аккуратный, академичный вариант. Текст — чистый, логичный, будто его писал методист из МИТ.

С визуалами сложнее. Парочка слайдов вызывают лёгкое недоумение: например, на первом при наведении курсора часть схемы внезапно исчезает. Сюжетный твист? Или просто непонятная логика анимации «до» и «после».

Но что важно — структура читается, а если задать желаемый тон в промпте, Gemini смог бы переписать его более интересно (я ведь оставил этот выбор модели, помните?).

ChatGPT 5

Эта презентация получилась наиболее выразительной. На трёх слайдах (1-м, 2-м и 4-м) добавлены интерактивные слайдеры для настройки температуры — можно наглядно увидеть, как меняется плотность связей между параметрами.

Фишка ChatGPT 5 — в гибкости. Он динамически регулирует длину и глубину ответов без всяких переключателей и ручных настроек, модель сама чувствует контекст.

С точки зрения языка именно этот вариант кажется наиболее доступным для широкой аудитории, даже в сравнении с Claude Sonnet 4.5.

Тест 2. Написание статьи о сравнении фреймворков

Ну и, конечно, письмо. Как отмечают тестеры, в тестах на креативное письмо Sonnet 4.5 — в числе лучших, и этот диапазон чувствуется даже в деловых черновиках. Может сменить тон, подстроиться под аудиторию руководителей, сохранить сквозную нить рассуждений, если просишь сделать стиль лаконичнее или под другим углом.

Однако мы рассмотрим немного другое: не креативное письмо, а статью‑реферат о сравнении фреймворков.

В мире мобильной разработки выбор между React Native, Flutter и NativeScript — это уже классика. Мы дали тем же четырем языковым моделям идентичный промпт. Давайте посмотрим, кто из них выдал по‑настоящему качественный, глубокий и полезный материал.

Claude Sonnet 4.5: структурированный и методичный технолог

Текст от Sonnet 4.5

Статья от Sonnet 4.5 с первых же строк производит впечатление основательности. Это не просто генерация текста по пунктам ТЗ, а хорошо продуманный материал.

Sonnet не просто перечисляет факты из таблицы, а объясняет архитектурные причины тех или иных явлений. Например, он четко разъясняет, что производительность React Native упирается в JavaScript Bridge, а мощь Flutter — в компиляцию в нативный ARM‑код и движок Skia. Это уровень понимания, который оценит продвинутый разработчик.

Оценка: 5/5.

Claude Opus 4.1: академичный и взвешенный аналитик

Текст от Opus 4.1

Opus дает ощущение еще большей взрослости и сбалансированности. Если Sonnet — блестящий инженер, то Opus — расставляет стратегические акценты.

Уже во введении Opus смещает акцент с технической на бизнес‑проблему. Это сразу находит отклик у целевой аудитории — тимлидов и владельцев продуктов.

Opus единственный, кто упомянул о «новой архитектуре Fabric и TurboModules» в React Native, которая решает имеющиеся проблемы. Это указывает на то, что модель следит за развитием технологий.

Описывая уход Airbnb от React Native, модель добавляет «Хотя последняя и отказалась от него...», что является признаком критического мышления и стремления к объективности.

Это анализ на уровне CTO (технического директора).

Оценка: 5/5.

Gemini 2.5 Pro: практичный и лаконичный инженер

Текст от Gemini 2.5 Pro

Статья от Gemini читается очень легко. Она хорошо структурирована, лаконична и нацелена на быструю передачу сути.

В рекомендациях для NativeScript Gemini дает, возможно, самую четкую и практичную формулировку: «абсолютный чемпион по переиспользованию кода с веб‑проектами на Angular и Vue». Это именно тот язык, на котором говорят разработчики при принятии решений.

Из минусов. Не хватает той самой глубины и архитектурных деталей, которые были у моделей Claude. Объяснения более поверхностны. Например, про Skia сказано лишь «обеспечивает плавную анимацию», без упоминания компиляции в нативный код.

Оценка: 4,5/5.

ChatGPT 5: Уверенный генералист

Текст от ChatGPT 5

Ответ ChatGPT производит смешанное впечатление. С одной стороны, он уверенно следует структуре (все пункты ТЗ выполнены, есть введение, таблица, анализ, рекомендации), с другой — чувствуется недостаток глубины и детализации.

Также ChatGPT 5 предложил интересный ход: в конце добавить сравнение по реальным кейсам.

Теперь к минусам:

Слишком общая таблица. Критерии описаны очень размыто: «средняя, зависит от...», «почти нативный», «активно растёт». После конкретных цифр и терминов у конкурентов это выглядит слабо.
Поверхностный анализ. Выводы вроде «Flutter особенно силён в создании сложных и красивых UI» — нет объяснения почему.
Фактические неточности. Утверждение, что NativeScript обеспечивает «прямой доступ к нативным API без „мостов“», является упрощением. На низком уровне взаимодействие с платформой все равно требует механизмов связи, что и отмечали другие модели.

Вердикт: ChatGPT генерирует структурно правильный, но довольно поверхностный текст, который уступает статьям конкурентов по информационной плотности и технической глубине.

Оценка: 4/5.

Решающий момент: кто же победил в этой битве?

Проанализировав все четыре работы, можно сделать несколько ключевых наблюдений.

Если вам нужна максимально глубокая, аналитическая и технически подкованная статья — ваш выбор между Sonnet 4.5 и Opus 4.1. Это материалы, после прочтения которых не возникает дополнительных вопросов.
Если вам нужен четкий, структурированный и быстрый гайд для принятия решения без лишней воды — смело берите статью от Gemini 2.5 Pro.
Результат от ChatGPT стоит считать хорошим базовым уровнем, но, если нужны дополнительные детали и экспертиза, его потребовалось бы дорабатывать.

Sonnet 4.5: золотая середина между ценой и результатом

Anthropic позиционирует Sonnet 4.5 как шаг к более самостоятельному и агентному ИИ — системе, способной рассуждать и действовать с дальним прицелом. В ревью кода это проявляется в более насыщенных, осторожных и разнообразных комментариях.

Для команд:

Если вы цените решительность и точечные правки, Opus 4.1 (или GPT-5 Codex) всё ещё задаёт планку.
Если вам нужен ревьюер, который находит критические проблемы повсюду, даже за рамками поставленной задачи, Sonnet 4.5 приятно удивит.
А если важнее практичное соотношение цены и качества, Sonnet 4.5 вновь самый разумный выбор: почти точность Opus — за небольшую часть его цены.

Как ни крути, Sonnet 4.5 меняет саму ткань ревью. Она звучит человечнее — не всегда лаконичнее, но более пытливо, осторожно и, порой, по‑настоящему точно там, где вы и не ожидали.

Если возможности этой модели отзываются в вас — возьмите свой промпт и поиграйте. Какая задача мучает вас уже давно? Пусть Sonnet 4.5 попробует.

Если вы по уши в инженерном руководстве, лавируете между дедлайнами, подкрадывающимися, как туман, или вы тот самый любопытный разработчик, впервые примеряющий на себя ИИ, задаваясь вопросом, сможет ли он наконец закрыть пропасть между идеей и «готово», — прислушайтесь.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

56.72%Claude Sonnet 4.576

8.21%Claude Sonnet 411

1.49%Claude Sonnet 3.72

8.21%Claude Opus 4.111

32.84%ChatGPT 544

2.24%ChatGPT o33

0.75%ChatGPT o1 pro1

2.24%ChatGPT 4.13

6.72%GhatGPT Codex9

13.43%Gemini 2.5 Pro18

2.24%YandexGPT 5.1 Pro3

5.22%Grok 47

0%Grok 30

12.69%DeepSeek 3.117

8.21%Другое11

Проголосовали 134 пользователя. Воздержались 34 пользователя.

Claude Sonnet 4.5 vs Opus 4.1 vs ChatGPT 5: какая нейросеть лучше в 2025 году?

Введение

Основные особенности Claude Sonnet 4.5

Параметры и возможности модели

Если сравнить с Opus 4.1... Стиль и тон: Sonnet 4.5 предпочитает осторожность

Осторожная лексика...

...И уверенная лексика

Бенчмарки

Тест OSWorld

Кодинг: Sonnet 4.5 обошёл Opus

Меньше галлюцинаций

Согласованность

Успех в областях финансов, юриспруденции, медицины и точных наук

Доступность и цены

Тесты нейросети Claude Sonnet 4.5

Тест 1. Презентация о transformers

Claude Sonnet 4.5

Claude Opus 4.1

Gemini 2.5 Pro

ChatGPT 5

Тест 2. Написание статьи о сравнении фреймворков

Claude Sonnet 4.5: структурированный и методичный технолог

Claude Opus 4.1: академичный и взвешенный аналитик

Gemini 2.5 Pro: практичный и лаконичный инженер

ChatGPT 5: Уверенный генералист

Решающий момент: кто же победил в этой битве?

Sonnet 4.5: золотая середина между ценой и результатом

Публикации

Информация