Claude Code vs. Codex: исчерпывающее сравнение / Хабр

Я использовал Claude Code несколько месяцев, потом перешёл на Codex. Недавно вернулся обратно — и причина не в бенчмарках. Также протестировал оба инструмента на одной и той же задаче.

В этой статье я разберу разные аспекты Claude Code и Codex, сравню флагманские модели Opus 4.6 и GPT-5.3-Codex, расскажу, что реально влияет на опыт AI-разработки, и покажу кейс-стади: построение RAG-пайплайна в обоих агентах.

Сразу предупрежу: читать ~12 минут. По-моему, это оправдано, если вы собираетесь платить $200/месяц за любой из них.

Opus 4.6 vs. GPT-5.3-Codex: временной горизонт выполнения задач

Есть одно надёжное сравнение между Codex и Claude Code — по их флагманским моделям и метрике Completion Time Horizon («временной горизонт выполнения задачи»), с которым можно ознакомиться здесь.

Вопрос, который задаёт это сравнение: как долго модель способна надёжно выполнять задачу? Временной горизонт измеряется временем, которое опытный человек потратил бы на ту же задачу, при заданном уровне надёжности. Например, «2-часовой горизонт при 50%» означает: дайте модели задачу, которую квалифицированный разработчик решает за 2 часа, — и агент справится примерно в половине случаев.

В исследовании используется подходящий скаффолд для каждой модели, включая Claude Code и Codex. Поэтому, хотя фокус на самой модели, результаты косвенно говорят и о надёжности скаффолдов.

На графике видна заметная разница: Opus 4.6 справляется с 12-часовыми задачами при 50% успеха, тогда как у GPT-5.3-Codex тот же показатель — 5 часов 50 минут. При пороге 80% разрыв сокращается.

Это показывает, что Opus 4.6 лучше справляется со сложными, длительными задачами. Насколько это применимо к вашему конкретному workflow — вопрос отдельный.

Claude Code быстрее, но скорость — не главное

Claude заметно быстрее Codex, однако работа с coding-агентами — это долгосрочный процесс.

Если агент заканчивает задачу в два раза быстрее, но потом требует 10 минут отладки, а другой тратит больше времени на реализацию, но выдаёт работающий результат — дополнительное время явно стоит того.

Это не утверждение о том, что Claude Code или Codex делает больше ошибок. Скорее общий принцип, который стоит держать в голове, когда оцениваете агентов самостоятельно или слышите, как кто-то хвастается скоростью своего инструмента.

Задача определяет результат

Codex и Claude Code показывают разные результаты в зависимости от типа задачи. В задачах AI-инжиниринга один может обходить другого, тогда как в веб-разработке ситуация меняется на противоположную.

Какие задачи лучше подходят Codex, а какие Claude Code — пока не исследовано должным образом. Например, неясно, кого выбрать для низкоуровневого программирования. В идеале стоит протестировать оба агента в небольшой и проверяемой задаче, прежде чем делать ставку на кого-то одного. Но тратить $300-400 на оба инструмента одновременно большинству разработчиков нецелесообразно.

Это интересная область для углублённого исследования, хотя и непростая: агенты и модели, которые их питают, и она кардинально меняется каждые несколько месяцев.

История создания

Claude Code начинался как сайд-проект Бориса Черни в Anthropic — он собрал прототип тулы для терминала, который мог взаимодействовать с Claude API, читать файлы и выполнять bash-команды. К пятому дню половина команды уже пользовалась им внутри компании. 24 февраля 2025 года Claude Code вышел как research preview на базе Claude 3.7 Sonnet. Со временем Anthropic выпустила и расширение для VS Code.

OpenAI изначально представила Codex как 12B-модель на базе GPT-3, дообученную на GitHub-коде, — она легла в основу первой версии GitHub Copilot. Нынешний Codex — совершенно другой продукт. Codex CLI появился 16 апреля 2025 года как агент для терминала и с тех пор развивается с каждой новой моделью. Последняя — GPT-5.3-Codex (5 февраля 2026 года) — описана OpenAI как «первая модель, которая помогала создавать саму себя».

У Григория Орозц есть два интересных интервью с разработчиками Claude Code и Codex — о технологическом стеке, процессе разработки и том, как каждый из инструментов появился на свет.

Технологический стек и модели

Claude Code написан на TypeScript с использованием React и Ink для рендеринга терминального UI. Поставляется как единый исполняемый файл на Bun (Anthropic приобрела Bun в декабре 2025 года именно для этой цели). Модели Opus и Sonnet поддерживают контекстное окно в 1M токенов.

Codex CLI написан на Rust — ради производительности, корректности и переносимости. OpenAI даже наняла мейнтейнера Ratatui (Rust TUI-библиотека) в команду.

Оба CLI — тонкие обёртки вокруг модели, к которой обращаются через API. В работе с Claude Code CLI я замечал небольшие «глюки», которых не было в Codex, — вероятно, это связано с технологическим стеком. Но на реальный опыт разработки они практически не влияют.

Бенчмарки близки, но токены — нет

Главное различие в производительности — не точность, а эффективность использования токенов. Подробный разбор Opus vs. Codex от Morph показывает интересный разрыв.

Claude Code использует в 3,2-4,2 раза больше токенов, чем Codex, на идентичных задачах. При сборке Figma-плагина Codex потратил 1,5M токенов против 6,2M у Claude.

Если это действительно так, то при одинаковой цене подписки на Claude Code вы будете чаще упираться в лимиты.

Ощущение от работы — важнее всего

Разработчики описывают разницу так:

Claude — это Senior Developer, который делает работу вместе с тобой, а Codex — подрядчик, которому отдаёшь задачу и потом забираешь результат.

Claude Code имеет сильный интерактивный характер и глубокое качество рассуждений — ожидаемое от Opus. Он задаёт уточняющие вопросы, показывает ход мысли и объясняет подход. По своему опыту нескольких месяцев использования могу это подтвердить, хотя в моём конкретном сравнительном эксперименте разница была менее заметной.

Codex известен точностью первой попытки на прямолинейных задачах, но немного медленнее в реализации.

Впрочем, разница в поведении сглаживается, как только вы чётко прописываете требования в AGENTS.md. Если указать, что модель должна согласовать план реализации перед тем, как приступить, — она так и сделает, независимо от того, какой агент используется.

Это не значит, что агенты одинаковы. Они действительно разные. Но не настолько, насколько принято преувеличивать в социальных сетях.

Цифры

На VS Code Marketplace у Claude Code 6,1M установок с рейтингом 4/5, у Codex — 5,4M установок с рейтингом 3,5/5. На GitHub у Claude Code примерно 65-72K звёзд, у Codex — около 64K.

Почему я возвращаюсь к Claude Code

Экосистема Anthropic

Выбор между Codex и Claude Code — это не только про написание кода. Подписка на каждый из них — это подписка на всю экосистему Anthropic или OpenAI, и это стоит учитывать.

На мой взгляд, Claude превращается в очень сильную экосистему, сопоставимую с Apple: Claude Cowork, Claude Chat, Claude Code. Судя по всему, Anthropic постепенно выстраивает что-то похожее на персонального проактивного агента, постепенно выкатывая отдельные части через Claude app.

На стороне OpenAI я пока не вижу ничего привлекательного, кроме Codex. Всё остальное выглядит разрозненно, и единой экосистемы не ощущается. ChatGPT для меня стал практически неудобным на фоне Opus — ни интерфейс, ни тон общения, ни выбор моделей не располагают к использованию.

Поскольку я уже активно использую Claude Chat, планирую попробовать Cowork, и не вижу принципиальных преимуществ в миграции с Claude Code на Codex — решение вернуться к Anthropic оказалось очевидным.

Ценообразование

Базовые цены примерно одинаковы:

Начальный уровень: $20/месяц у обоих
Средний уровень: Claude Code Max 5x — $100/месяц (у Codex аналога нет)
Максимальный уровень: $200/месяц у обоих

Промежуточный тариф $100/месяц у Claude Code — реальное преимущество. Для большинства разработчиков план Max 5x вполне достаточен, и не нужно сразу прыгать с $20 до $200.

Skills и плагины

Skills совместимы между Claude Code и Codex, так что разницы вы не почувствуете. Однако большинство репозиториев и хабов со скиллами называются в честь Claude Code, что немного сбивает с толку.

То же самое и с сообществом: большинство постов на Reddit, X и в блогах посвящены Claude Code, хотя те же принципы применимы к обоим агентам. Это говорит о размере и зрелости комьюнити.

Поддержку скиллов и плагинов Codex добавил значительно позже Claude Code, и совместимость плагинов пока ограничена. Но многие разработчики, включая меня, не используют плагины вовсе — так что если вам они не нужны, это не повод для беспокойства.

RAG-пайплайн: кейс-стади

Для сравнения я выбрал задачу, результат которой можно оценить количественно. Проблема с созданием лендинга, например, в том, что это субъективно: один скажет «отличный дизайн», другой — «кричащая вёрстка».

Поэтому я выбрал построение простого RAG-пайплайна: точность ответов поддаётся измерению в числах.

Другие подходящие варианты для подобного сравнения: обучение vision-модели, файн-тюнинг LLM или измерение производительности низкоуровневой программы.

Я попросил оба агента создать RAG Q&A пайплайн для научных статей.

Workflow:

Взять несколько статей и извлечь текст.
Разбить содержимое на чанки.
Создать эмбеддинги каждого чанка.
По вопросу пользователя найти ближайшие чанки.
Передать исходный текст этих чанков как контекст.
Сформировать ответ на основе контекста.

Задача достаточно проста для реализации за одну сессию, но содержит нюансы, которые сильно влияют на результат: стратегия чанкинга, метод эмбеддинга, хранилище векторов, оценка уверенности в релевантности, перефразирование запроса пользователя и т.д.

Параметры эксперимента

Я взял 5 научных статей из huggingface daily papers за прошлую неделю и создал тестовый датасет (100 вопросов с эталонными ответами) для оценки качества реализации.

Для обоих агентов указал:

Построить Python RAG-пайплайн
Обрабатывать все PDF через PyMuPDF
Выбрать подходящую стратегию чанкинга
Создать эмбеддинги и постоянный локальный векторный индекс (на усмотрение агента)
Генерировать ответы через llama-3.1-8b-instant
При недостатке доказательств не галлюцинировать, возвращать fallback-ответ

Использовал наиболее популярные дефолтные модели: gpt-5.3-codex и Opus 4.6, оба в режиме High effort. AGENTS.md не использовался.

Как каждый реализовал пайплайн

Принципиальных различий в подходе я не заметил, кроме того, что Codex более многословен при объяснении плана. Claude просто пишет файлы и выполняет команды, не тратя слов на объяснения.

Codex также завершал задачу медленнее.

Важнее другое: Claude протестировал скрипт end-to-end и убедился, что пайплайн готов к использованию. Codex завершил реализацию, но не запустил программу и попросил меня самому установить зависимости через pip и запустить скрипт. Естественно, я получил ошибку, которую Codex затем исправил. Скрипт Claude заработал без проблем с первого раза.

Я замечал эту закономерность у Codex: он оставляет часть подготовительной работы на пользователя, вместо того чтобы сделать её самостоятельно. При этом если Codex встречает проблему с окружением или реализацией, он сообщает о ней и принимает меры. Claude же, как правило, просто исправляет — что в зависимости от предпочтений может быть как плюсом, так и минусом.

Ещё одно наблюдение: время до первого токена в новой сессии у Codex может достигать минуты, тогда как у Claude Code оно заметно короче.

Детали реализации

Оба агента выбрали удивительно похожие подходы:

Одну и ту же модель эмбеддинга: all-MiniLM-L6-v2
Top-K = 5 для извлечения чанков
Ограничение LLM в системном промпте: использовать только предоставленный контекст

Различия:

Векторное хранилище: Claude Code выбрал ChromaDB, Codex — FAISS (более низкоуровневая библиотека поиска по сходству, быстрее и экономнее по памяти).
Чанкинг: Claude Code использует рекурсивное посимвольное разбиение: сначала \n\n, затем \n, затем ., затем . Целевой размер — 1 000 символов с перекрытием 200. Codex разбивает на уровне предложений и заполняет чанки до 220 слов с перекрытием 40 слов. Claude Code делит по структуре (абзацы → строки → предложения → слова) и меряет в символах. Codex сначала делит на предложения, затем упаковывает их в бюджет из слов. Подход Codex уважает границы предложений и избегает разрывов на середине, но 220 слов может оказаться маловато для академических текстов.
Уверенность: Claude Code использует единый порог по лучшему L2-расстоянию (>1,2 = нерелевантно), затем проверяет среднее расстояние для слабо и хорошо подкреплённых чанков. Codex применяет многокритериальную систему из трёх уровней: сильный, умеренный и недостаточный.
Архитектура кода:
- Claude Code: плоские функции, константы в каждом модуле, без валидации согласованности моделей.
- Codex: OOP pipeline-класс, централизованный конфиг, датаклассы, argparse CLI, валидация согласованности моделей.

Codex явно лучше спроектирован и более конфигурируем. В серьёзных продакшн-кодовых базах это критично.

Результаты

GPT-5.4 в роли LLM-судьи сравнивал ответы обоих пайплайнов по четырём критериям: корректность, полнота, релевантность и лаконичность.

Из 100 вопросов Claude Code победил в 42 случаях, Codex — в 33, 25 оказались ничьёй. Преимущество Claude объясняется главным образом более мягким порогом уверенности и, возможно, чуть более высокой температурой генерации (0,2 против 0,1 у Codex).

Оговорки

Это очень простой эксперимент, и его цель — скорее посмотреть, как два агента по-разному подходят к одной и той же закрытой задаче. В профессиональной разработке именно разработчик принимает архитектурные решения: метод чанкинга, векторное хранилище, стратегию извлечения. И реальные системы требуют итеративного улучшения с более надёжными тестовыми наборами.

С другой стороны, джуниор без опыта в RAG вполне может делегировать эти решения агенту — и здесь результаты эксперимента вполне показательны.

Просто выберите!

Нет заведомо неправильного выбора между Claude Code и Codex. Оба предлагают сильные модели и справляются с задачами на сопоставимом уровне.

Для меня ключевыми факторами стали экосистема Anthropic и тарифный план $100/месяц. Даже если придётся перейти на $200/месяц, я всё равно остановлюсь на Claude Code — из-за первого.

Самое важное — какие задачи вы решаете с помощью этих инструментов и как именно их используете. Это лучше любых бенчмарков определяет, какой агент подходит вам. И нет универсального ответа — только ваш собственный опыт покажет, какой из них ощущается правильным.

Есть разработчики вроде Питера Штейнберга (создателя OpenClaw), которые уверены в Codex, и есть сообщество, считающее Opus вне конкуренции. По-моему, оба правы одновременно — просто потому что у них разный workflow и разные критерии качества.

Если сомневаетесь, попробуйте $20/месяц-версию обоих на задачах из вашей области, желательно на нескольких проверяемых примерах.

И помните: как и всё в AI, ситуация кардинально меняется каждые несколько месяцев. Инструмент, который нравится вам сейчас, через три месяца может вести себя иначе — или появится что-то новое. В этой области почти нет однозначных глобальных ответов, и данный вопрос — не исключение.

Русскоязычное сообщество про AI в разработке

Друзья! Перевод этой статьи подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!