python_leader Mar 12 at 11:50

Claude Code vs. Codex: исчерпывающее сравнение

Easy

9 min

25K

Artificial IntelligenceProgramming * Machine learning * Text editors and IDEs *

Review

Translation

+26

Comments 14

Dhwtj Mar 12 at 13:38

Кажется я понял что такое агентское программирование. Агент может долго доработать автономно только если база знаний LLM, либо контекст проекта (conventions, архитектура, тесты как спецификация) или внешняя уже готовая база знаний больше чем задача. Иначе затраты на постановку задачи больше остального.

А легаси и закрытые корпоративные меньше.

И это ирония - те, кому автоматизация нужнее всего, получают от неё меньше всего.

А здесь 100500й вариант решения уже решённой задачи, контекст и база знаний огромные.

Dhwtj Mar 12 at 17:38

Исследователи, создатели LLM искренне не понимают остальных разработчиков. Нет такого в долгоживущих системах. Совсем не близко

wert_lex Mar 12 at 19:39

О да!

Во всех Agentic-AI-фильных текстах всегда одна и та же история: вы просто установите констрейнты задачи, передайте полный контекст, передайте базу знаний и business boundaries и модель сама все сделает!

Ребята, если бы у нас все это было известно полностью до начала выполнения задачи, и мы бы руками уже давно это сделали 😅

Впрочем, если постараться выключить хайп вокруг (что неимоверно сложно сейчас), штука и правда приятная, и рутину ускоряет очень здорово.

Dhwtj Mar 12 at 19:44

Когда на кону триллионы сложно включить хайп

yadimon Mar 13 at 01:39

Мне нравился claude, но в какой-то момент сильно удивил кодекс глубиной понимания проблемы.

Теперь я только на кодексе, развивают его быстро, по фичам помоему почти догнал клода.

Мне кажется он пишет менее ошибочный код. Но возможно я предвзят, т.к. подписки клода больше нет.

Использую gpt5.4-high (fast) в основном.

sokolovdanil Mar 14 at 10:04

Я очень трепетно и с большим уважением относился к продукту claude, но меня в итоге забанили. Думаю, что стоит просто откатиться на Codex обратно.

sgnppv Apr 9 at 23:05

Хм, интересно, за что?

diffnotes-tech Mar 13 at 08:20

Автор выбрал Claude частично за тариф $100/мес. Но сам же пишет что Claude тратит в 3-4 раза больше токенов на тех же задачах. На фиксированном тарифе это значит упрёшься в потолок в 3-4 раза быстрее

dmatora Mar 14 at 12:16

Не часто пишу комментарии к статьям на Хабре, но пошел к компьютеру и авторизовался чтобы написать тоже самое. Если дать Opus-у большой контекст, 5 часовой лимит можно сжечь за 10 минут. У Codex сжечь 5 часовой лимит за 5 часов - удается не часто. Чаще всего $20 подписки хватает на весь месяц работы, в том числе над несколькими проектами, ни в чем себе не отказывая. В редких случаях возникает потребность купить вторую за $20 - переключить аккаунт и шарашить дальше. Исчерпать 2 подписки мне не удавалось ни разу, даже вместе с женой. По цене Claude не конкурентна от слова совсем.

ontop Mar 13 at 20:18

На графике видна заметная разница: Opus 4.6 справляется с 12-часовыми задачами при 50% успеха, тогда как у GPT-5.3-Codex тот же показатель — 5 часов 50 минут. При пороге 80% разрыв сокращается.

Где? На картинке указан GPT5.2, GPT5.3-Codex нету.

Opus вне конкуренции.

sokolovdanil Mar 14 at 10:05

Когда читал материал, изначально подумал, что кто-то очень постарался и реально захотел разобраться в важной и интересной задаче. А в итоге под конец стало понятно, что это просто перевод. Причём, не самый хороший. Те же графики не соотносятся с реальностью.

dmatora Mar 14 at 12:32

Спасибо автору за попытку качественно осветить такой важный и сложный вопрос, но...

Ни слова ни сказано о Codex Desktop. Я после него вообще не могу другими агентами пользоваться, благодаря удобной поддержке параллельного выполнения нескольких задач. Справедливости ради, в Claude она тоже есть - но требует больше телодвижений.

Что такого ценного в экосистеме, в частности в Cowork - не ясно. В Codex точно также можно поручить агенту сходить в Playwright и выполнить все те же задачи, или я что-то упускаю?

Вот то как у Claude нативно реализована визуальная оценка результаты работы - реально круто, она у себя в приложении без подсказок смотрит сайт и видит его как надо, а Codex, даже на 5.4 с Playwright ведет себя гораздо менее уверенно, и в самом диалоге результаты визуального анализа не фиксируется никак, но в статье об этом тоже ни слова.

А еще ни слова о том что Claude фактически поддерживает контекст до миллиона токенов, а Codex эффективно заглядывать дальше 256К не может.

yadimon Mar 14 at 15:12

может немного оффтоп, но может быть полезно читателям ищущим инфо по чат ботам:
вот это моделька из статьи all-MiniLM-L6-v2 реально хороша и универсальна, я много тестировал моделек для чат бота в проекте (FAQ retrieval) и классификации запроса (bug report, feature request, question), и вот волшебный, легкий, работающий на cpu на серваке all-MiniLM-L6-v2 потребляющий на пике 724 MiB, был победителем (85% FAQ, 77% Classifier, тесты намного сложнее чем обычные use case, поэтому не высокий %. сам циферка как reference просто).

Хотя чисто по FAQ, но не по классификации был лучше intfloat/multilingual-e5-small, (peak RAM 1.65 GiB, 93%% FAQ, 62% Classifier) в итоге я использую обе, одну по FAQ другую, по классификации.

14мс всего на ответ им надо в Docker/TEI, если вдруг интересно.

ToniDoni Mar 18 at 09:23

А что же вы будучи активным пользователем на своих собственных задачах не сравнили а синтетику придумываете?