Comments 13
Кажется я понял что такое агентское программирование. Агент может долго доработать автономно только если база знаний LLM, либо контекст проекта (conventions, архитектура, тесты как спецификация) или внешняя уже готовая база знаний больше чем задача. Иначе затраты на постановку задачи больше остального.
А легаси и закрытые корпоративные меньше.
И это ирония - те, кому автоматизация нужнее всего, получают от неё меньше всего.
А здесь 100500й вариант решения уже решённой задачи, контекст и база знаний огромные.
Исследователи, создатели LLM искренне не понимают остальных разработчиков. Нет такого в долгоживущих системах. Совсем не близко
О да!
Во всех Agentic-AI-фильных текстах всегда одна и та же история: вы просто установите констрейнты задачи, передайте полный контекст, передайте базу знаний и business boundaries и модель сама все сделает!
Ребята, если бы у нас все это было известно полностью до начала выполнения задачи, и мы бы руками уже давно это сделали 😅
Впрочем, если постараться выключить хайп вокруг (что неимоверно сложно сейчас), штука и правда приятная, и рутину ускоряет очень здорово.
Мне нравился claude, но в какой-то момент сильно удивил кодекс глубиной понимания проблемы.
Теперь я только на кодексе, развивают его быстро, по фичам помоему почти догнал клода.
Мне кажется он пишет менее ошибочный код. Но возможно я предвзят, т.к. подписки клода больше нет.
Использую gpt5.4-high (fast) в основном.
Автор выбрал Claude частично за тариф $100/мес. Но сам же пишет что Claude тратит в 3-4 раза больше токенов на тех же задачах. На фиксированном тарифе это значит упрёшься в потолок в 3-4 раза быстрее
Не часто пишу комментарии к статьям на Хабре, но пошел к компьютеру и авторизовался чтобы написать тоже самое. Если дать Opus-у большой контекст, 5 часовой лимит можно сжечь за 10 минут. У Codex сжечь 5 часовой лимит за 5 часов - удается не часто. Чаще всего $20 подписки хватает на весь месяц работы, в том числе над несколькими проектами, ни в чем себе не отказывая. В редких случаях возникает потребность купить вторую за $20 - переключить аккаунт и шарашить дальше. Исчерпать 2 подписки мне не удавалось ни разу, даже вместе с женой. По цене Claude не конкурентна от слова совсем.
На графике видна заметная разница: Opus 4.6 справляется с 12-часовыми задачами при 50% успеха, тогда как у GPT-5.3-Codex тот же показатель — 5 часов 50 минут. При пороге 80% разрыв сокращается.
Где? На картинке указан GPT5.2, GPT5.3-Codex нету.
Opus вне конкуренции.
Когда читал материал, изначально подумал, что кто-то очень постарался и реально захотел разобраться в важной и интересной задаче. А в итоге под конец стало понятно, что это просто перевод. Причём, не самый хороший. Те же графики не соотносятся с реальностью.
Спасибо автору за попытку качественно осветить такой важный и сложный вопрос, но...
Ни слова ни сказано о Codex Desktop. Я после него вообще не могу другими агентами пользоваться, благодаря удобной поддержке параллельного выполнения нескольких задач. Справедливости ради, в Claude она тоже есть - но требует больше телодвижений.
Что такого ценного в экосистеме, в частности в Cowork - не ясно. В Codex точно также можно поручить агенту сходить в Playwright и выполнить все те же задачи, или я что-то упускаю?
Вот то как у Claude нативно реализована визуальная оценка результаты работы - реально круто, она у себя в приложении без подсказок смотрит сайт и видит его как надо, а Codex, даже на 5.4 с Playwright ведет себя гораздо менее уверенно, и в самом диалоге результаты визуального анализа не фиксируется никак, но в статье об этом тоже ни слова.
А еще ни слова о том что Claude фактически поддерживает контекст до миллиона токенов, а Codex эффективно заглядывать дальше 256К не может.
может немного оффтоп, но может быть полезно читателям ищущим инфо по чат ботам:
вот это моделька из статьи all-MiniLM-L6-v2 реально хороша и универсальна, я много тестировал моделек для чат бота в проекте (FAQ retrieval) и классификации запроса (bug report, feature request, question), и вот волшебный, легкий, работающий на cpu на серваке all-MiniLM-L6-v2 потребляющий на пике 724 MiB, был победителем (85% FAQ, 77% Classifier, тесты намного сложнее чем обычные use case, поэтому не высокий %. сам циферка как reference просто).
Хотя чисто по FAQ, но не по классификации был лучше intfloat/multilingual-e5-small, (peak RAM 1.65 GiB, 93%% FAQ, 62% Classifier) в итоге я использую обе, одну по FAQ другую, по классификации.
14мс всего на ответ им надо в Docker/TEI, если вдруг интересно.
А что же вы будучи активным пользователем на своих собственных задачах не сравнили а синтетику придумываете?
Claude Code vs. Codex: исчерпывающее сравнение