Я использовал Claude Code несколько месяцев, потом перешёл на Codex. Недавно вернулся обратно — и причина не в бенчмарках. Также протестировал оба инструмента на одной и той же задаче.
В этой статье я разберу разные аспекты Claude Code и Codex, сравню флагманские модели Opus 4.6 и GPT-5.3-Codex, расскажу, что реально влияет на опыт AI-разработки, и покажу кейс-стади: построение RAG-пайплайна в обоих агентах.
Сразу предупрежу: читать ~12 минут. По-моему, это оправдано, если вы собираетесь платить $200/месяц за любой из них.
Opus 4.6 vs. GPT-5.3-Codex: временной горизонт выполнения задач
Есть одно надёжное сравнение между Codex и Claude Code — по их флагманским моделям и метрике Completion Time Horizon («временной горизонт выполнения задачи»), с которым можно ознакомиться здесь.
Вопрос, который задаёт это сравнение: как долго модель способна надёжно выполнять задачу? Временной горизонт измеряется временем, которое опытный человек потратил бы на ту же задачу, при заданном уровне надёжности. Например, «2-часовой горизонт при 50%» означает: дайте модели задачу, которую квалифицированный разработчик решает за 2 часа, — и агент справится примерно в половине случаев.

В исследовании используется подходящий скаффолд для каждой модели, включая Claude Code и Codex. Поэтому, хотя фокус на самой модели, результаты косвенно говорят и о надёжности скаффолдов.
На графике видна заметная разница: Opus 4.6 справляется с 12-часовыми задачами при 50% успеха, тогда как у GPT-5.3-Codex тот же показатель — 5 часов 50 минут. При пороге 80% разрыв сокращается.
Это показывает, что Opus 4.6 лучше справляется со сложными, длительными задачами. Насколько это применимо к вашему конкретному workflow — вопрос отдельный.
Claude Code быстрее, но скорость — не главное
Claude заметно быстрее Codex, однако работа с coding-агентами — это долгосрочный процесс.
Если агент заканчивает задачу в два раза быстрее, но потом требует 10 минут отладки, а другой тратит больше времени на реализацию, но выдаёт работающий результат — дополнительное время явно стоит того.
Это не утверждение о том, что Claude Code или Codex делает больше ошибок. Скорее общий принцип, который стоит держать в голове, когда оцениваете агентов самостоятельно или слышите, как кто-то хвастается скоростью своего инструмента.
Задача определяет результат
Codex и Claude Code показывают разные результаты в зависимости от типа задачи. В задачах AI-инжиниринга один может обходить другого, тогда как в веб-разработке ситуация меняется на противоположную.
Какие задачи лучше подходят Codex, а какие Claude Code — пока не исследовано должным образом. Например, неясно, кого выбрать для низкоуровневого программирования. В идеале стоит протестировать оба агента в небольшой и проверяемой задаче, прежде чем делать ставку на кого-то одного. Но тратить $300-400 на оба инструмента одновременно большинству разработчиков нецелесообразно.
Это интересная область для углублённого исследования, хотя и непростая: агенты и модели, которые их питают, и она кардинально меняется каждые несколько месяцев.
История создания
Claude Code начинался как сайд-проект Бориса Черни в Anthropic — он собрал прототип тулы для терминала, который мог взаимодействовать с Claude API, ч��тать файлы и выполнять bash-команды. К пятому дню половина команды уже пользовалась им внутри компании. 24 февраля 2025 года Claude Code вышел как research preview на базе Claude 3.7 Sonnet. Со временем Anthropic выпустила и расширение для VS Code.
OpenAI изначально представила Codex как 12B-модель на базе GPT-3, дообученную на GitHub-коде, — она легла в основу первой версии GitHub Copilot. Нынешний Codex — совершенно другой продукт. Codex CLI появился 16 апреля 2025 года как агент для терминала и с тех пор развивается с каждой новой моделью. Последняя — GPT-5.3-Codex (5 февраля 2026 года) — описана OpenAI как «первая модель, которая помогала создавать саму себя».
У Григория Орозц есть два интересных интервью с разработчиками Claude Code и Codex — о технологическом стеке, процессе разработки и том, как каждый из инструментов появился на свет.
Технологический стек и модели
Claude Code написан на TypeScript с использованием React и Ink для рендеринга терминального UI. Поставляется как единый исполняемый файл на Bun (Anthropic приобрела Bun в декабре 2025 года именно для этой цели). Модели Opus и Sonnet поддерживают контекстное окно в 1M токенов.
Codex CLI написан на Rust — ради производительности, корректности и переносимости. OpenAI даже наняла мейнтейнера Ratatui (Rust TUI-библиотека) в команду.
Оба CLI — тонкие обёртки вокруг модели, к которой обращаются через API. В работе с Claude Code CLI я замечал небольшие «глюки», которых не было в Codex, — вероятно, это связано с технологическим стеком. Но на реальный опыт разработки они практически не влияют.
Бенчмарки близки, но токены — нет
Главное различие в производительности — не точность, а эффективность использования токенов. Подробный разбор Opus vs. Codex от Morph показывает интересный разрыв.

Claude Code использует в 3,2-4,2 раза больше токенов, чем Codex, на идентичных задачах. При сборке Figma-плагина Codex потратил 1,5M токенов против 6,2M у Claude.
Если это действительно так, то при одинаковой цене подписки на Claude Code вы будете чаще упираться в лимиты.
Ощущение от работы — важнее всего
Разработчики описывают разницу так:
Claude — это Senior Developer, который делает работу вместе с тобой, а Codex — подрядчик, которому отдаёшь задачу и потом забираешь результат.
Claude Code имеет сильный интерактивный характер и глубокое качество рассуждений — ожидаемое от Opus. Он задаёт уточняющие вопросы, показывает ход мысли и объясняет подход. По своему опыту нескольких месяцев использования могу это подтвердить, хотя в моём конкретном сравнительном эксперименте разница была менее заметной.
Codex известен точностью первой попытки на прямолинейных задачах, но немного медленнее в реализации.
Впрочем, разница в поведении сглаживается, как только вы чётко прописываете требования в AGENTS.md. Если указать, что модель должна согласовать план реализации перед тем, как приступить, — она так и сделает, независимо от того, какой агент используется.
Это не значит, что агенты одинаковы. Они действительно разные. Но не настолько, насколько принято преувеличивать в социальных сетях.
Цифры
На VS Code Marketplace у Claude Code 6,1M установок с рейтингом 4/5, у Codex — 5,4M установок с рейтингом 3,5/5. На GitHub у Claude Code примерно 65-72K звёзд, у Codex — около 64K.

Почему я возвращаюсь к Claude Code
Экосистема Anthropic
Выбор между Codex и Claude Code — это не только про написание кода. Подписка на каждый из них — это подписка на всю экосистему Anthropic или OpenAI, и это стоит учитывать.

На мой взгляд, Claude превращается в очень сильную экосистему, сопоставимую с Apple: Claude Cowork, Claude Chat, Claude Code. Судя по всему, Anthropic постепенно выстраивает что-то похожее на персонального проактивного агента, постепенно выкатывая отдельные части через Claude app.
На стороне OpenAI я пока не вижу ничего привлекательного, кроме Codex. Всё остальное выглядит разрозненно, и единой экосистемы не ощущается. ChatGPT для меня стал практически неудобным на фоне Opus — ни интерфейс, ни тон общения, ни выбор моделей не располагают к использованию.
Поскольку я уже активно использую Claude Chat, планирую попробовать Cowork, и не вижу принципиальных преимуществ в миграции с Claude Code на Codex — решение вернуться к Anthropic оказалось очевидным.
Ценообразование
Базовые цены примерно одинаковы:
Начальный уровень: $20/месяц у обоих
Средний уровень: Claude Code Max 5x — $100/месяц (у Codex аналога нет)
Максимальный уровень: $200/месяц у обоих
Промежуточный тариф $100/месяц у Claude Code — реальное преимущество. Для большинства разработчиков план Max 5x вполне достаточен, и не нужно сразу прыгать с $20 до $200.
Skills и плагины
Skills совместимы между Claude Code и Codex, так что разницы вы не почувствуете. Однако большинство репозиториев и хабов со скиллами называются в честь Claude Code, что немного сбивает с толку.
То же самое и с сообществом: большинство постов на Reddit, X и в блогах посвящены Claude Code, хотя те же принципы применимы к обоим агентам. Это говорит о размере и зрелости комьюнити.
Поддержку скиллов и плагинов Codex добавил значительно позже Claude Code, и совместимость плагинов пока ограничена. Но многие разработчики, включая меня, не используют плагины вовсе — так что если вам они не нужны, это не повод для беспокойства.
RAG-пайплайн: кейс-стади
Для сравнения я выбрал задачу, результат которой можно оценить количественно. Проблема с созданием лендинга, например, в том, что это субъективно: один скажет «отличный дизайн», другой — «кричащая вёрстка».
Поэтому я выбрал построение простого RAG-пайплайна: точность ответов поддаётся измерению в числах.
Другие подходящие варианты для подобного сравнения: обучение vision-модели, файн-тюнинг LLM или измерение производительности низкоуровневой программы.
Я попросил оба агента создать RAG Q&A пайплайн для научных статей.
Workflow:
Взять несколько статей и извлечь текст.
Разбить содержимое на чанки.
Создать эмбеддинги каждого чанка.
По вопросу пользователя найти ближайшие чанки.
Передать исходный текст эт��х чанков как контекст.
Сформировать ответ на основе контекста.
Задача достаточно проста для реализации за одну сессию, но содержит нюансы, которые сильно влияют на результат: стратегия чанкинга, метод эмбеддинга, хранилище векторов, оценка уверенности в релевантности, перефразирование запроса пользователя и т.д.
Параметры эксперимента
Я взял 5 научных статей из huggingface daily papers за прошлую неделю и создал тестовый датасет (100 вопросов с эталонными ответами) для оценки качества реализации.
Для обоих агентов указал:
Построить Python RAG-пайплайн
Обрабатывать все PDF через
PyMuPDFВыбрать подходящую стратегию чанкинга
Создать эмбеддинги и постоянный локальный векторный индекс (на усмотрение агента)
Генерировать ответы через
llama-3.1-8b-instantПри недостатке доказательств не галлюцинировать, возвращать fallback-ответ
Использовал наиболее популярные дефолтные модели: gpt-5.3-codex и Opus 4.6, оба в режиме High effort. AGENTS.md не использовался.
Как каждый реализовал пайплайн
Принципиальных различий в подходе я не заметил, кроме того, что Codex более многословен при объяснении плана. Claude просто пишет файлы и выполняет команды, не тратя слов на объяснения.
Codex также завершал задачу медленнее.
Важнее другое: Claude протестировал скрипт end-to-end и убедился, что пайплайн готов к использованию. Codex завершил реализацию, но не запустил программу и попросил меня самому установить зависимости через pip и запустить скрипт. Естественно, я получил ошибку, которую Codex затем исправил. Скрипт Claude заработал без проблем с первого раза.
Я замечал эту закономерность у Codex: он оставляет часть подготовительной работы на пользователя, вместо того чтобы сделать её самостоятельно. При этом если Codex встречает проблему с окружением или реализацией, он сообщает о ней и принимает меры. Claude же, как правило, просто исправляет — что в зависимости от предпочтений может быть как плюсом, так и минусом.
Ещё одно наблюдение: время до первого токена в новой сессии у Codex может достигать минуты, тогда как у Claude Code оно заметно короче.
Детали реализации
Оба агента выбрали удивительно похожие подходы:
Одну и ту же модель эмбеддинга:
all-MiniLM-L6-v2Top-K = 5 для извлечения чанков
Ограничение LLM в системном промпте: использовать только предоставленный контекст
Различия:
Векторное хранилище: Claude Code выбрал ChromaDB, Codex — FAISS (более низкоуровневая библиотека поиска по сходству, быстрее и экономнее по памяти).
Чанкинг: Claude Code использует рекурсивное посимвольное разбиение: сначала
\n\n, затем\n, затем., затем . Целевой размер — 1 000 символов с перекрытием 200. Codex разбивает на уровне предложений и заполняет чанки до 220 слов с перекрытием 40 слов. Claude Code делит по структуре (абзацы → строки → предложения → слова) и меряет в символах. Codex сначала делит на предложения, затем упаковывает их в бюджет из слов. Подход Codex уважает границы предложений и избегает разрывов на середине, но 220 слов может оказаться маловато для академических текстов.Уверенность: Claude Code использует единый порог по лучшему L2-расстоянию (>1,2 = нерелевантно), затем проверяет среднее расстояние для слабо и хорошо подкреплённых чанков. Codex применяет многокритериальную систему из трёх уровней: сильный, умеренный и недостаточный.
Архитектура кода:
Claude Code: плоские функции, константы в каждом модуле, без валидации согласованности моделей.
Codex: OOP pipeline-класс, централизованный конфиг, датаклассы, argparse CLI, валидация согласованности моделей.
Codex явно лучше спроектирован и более конфигурируем. В серьёзных продакшн-кодовых базах это критично.
Результаты
GPT-5.4 в роли LLM-судьи сравнивал ответы обоих пайплайнов по четырём критериям: корректность, полнота, релевантность и лаконичность.

Из 100 вопросов Claude Code победил в 42 случаях, Codex — в 33, 25 оказались ничьёй. Преимущество Claude объясняется главным образом более мягким порогом уверенности и, возможно, чуть более высокой температурой генерации (0,2 против 0,1 у Codex).
Оговорки
Это очень простой эксперимент, и его цель — скорее посмотреть, как два агента по-разному подходят к одной и той же закрытой задаче. В профессиональной разработке именно разработчик принимает архитектурные решения: метод чанкинга, векторное хранилище, стратегию извлечения. И реальные системы требуют итеративного улучшения с более надёжными тестовыми наборами.
С другой стороны, джуниор без опыта в RAG вполне может делегировать эти решения агенту — и здесь результаты эксперимента вполне показательны.
Просто выберите!
Нет заведомо неправильного выбора между Claude Code и Codex. Оба предлагают сильные модели и справляются с задачами на сопоставимом уровне.
Для меня ключевыми факторами стали экосистема Anthropic и тарифный план $100/месяц. Даже если придётся перейти на $200/месяц, я всё равно остановлюсь на Claude Code — из-за первого.
Самое важное — какие задачи вы решаете с помощью этих инструментов и как именно их используете. Это лучше любых бенчмарков определяет, какой агент подходит вам. И нет универсального ответа — только ваш собственный опыт покажет, какой из них ощущается правильным.
Есть разработчики вроде Питера Штейнберга (создателя OpenClaw), которые уверены в Codex, и есть сообщество, считающее Opus вне конкуренции. По-моему, оба правы одновременно — просто потому что у них разный workflow и разные критерии качества.
Если сомневаетесь, попробуйте $20/месяц-версию обоих на задачах из вашей области, желательно на нескольких проверяемых примерах.
И помните: как и всё в AI, ситуация кардинально меняется каждые несколько месяцев. Инструмент, который нравится вам сейчас, через три месяца может вести себя иначе — или появится что-то новое. В этой области почти нет однозначных глобальных ответов, и данный вопрос — не исключение.
Русскоязычное сообщество про AI в разработке

Друзья! Перевод этой статьи подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
