Обновить

Claude Opus 4.6 vs GPT-5.3 Codex: как выбрать модель под ваши задачи

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели10K
Всего голосов 5: ↑5 и ↓0+5
Комментарии8

Комментарии 8

Антропики дали бонус 50$ при превышении лимита, новый Opus съел 20$ при 3 4 запросах общих правках примерно 5-6к строк. Судя по эффекту какое-то новое "волшебство" в расчете сумм. Так что Codex без вариантов.

Решил попробовать кодекс. Открыл. Попросил запустить андроид эмулятор фоновым процессом. 5 минут смотрел на цирк. Запустил сам. Попросил запустить аппиум. 5 минут смотрел на цирк. Запустил сам. Попросил запустить тесты. Тесты запустил. Попросил проанализировать падение. Обрезал вывод при первом запуске через grep, так что ничего не смог понять. Не додумался посмотреть в junit report. Запустил тесты еще раз с тем же грепом. Потом еще раз но уже без грепа. На третий раз упал аппиум (это известная проблема, решается перезапуском) и мы снова уперлись в цирк «запусти аппиум». Не знаю о какой автономности идет речь. Почесал репу и закрыл кодекс. Вернулся на Claude, и даже Haiku 4.5 справилась со всеми этими задачами сама без единого моего участия. Еще и тесты починила. Хорошо еще что я успел потестировать в окно бесплатного доступа к кодексу, а не подписался.

Как интересно, выложили бы на гитхаб проект с тестовыми промптам, может в новый реальный бенчмарк вырастит

Ну проект приватный, а во-вторых какие там промпты? «Start android emulator as a background process», только и всего

По моему опыту в статье сильно неправильные оценки.

Claude Opus 4.6 и быстрее, и точнее, и полнее. Во всех задачах!
Codex включать не имеет смысла. Gemini 3 и тот будет умнее.
Codex и рассуждает мало и отвечает дольше.

Огромное контекстное окно пользы не дает. Даже приходится убивать диалог, когда контекст из-за истории раздувается. Особенно добивает, когда агенты начинаю впадать в ступор из-за большого контекста. Ждать можно десятками минут!

Однако за сессию агент может скачать и обработать гораздо больше данных чем размер контекста. Но эта фича уже давно у всех. Даже GPT 5 умел работать агентом и так собирать данные.
Зато теперь есть скилы и агенты могут не засорять свой контекст огромными инструкциями на все случаи жизни, а брать только инструкции из нужных скилов. Это отодвигает проблему окна контекста еще дальше.

агенты координируют действия друг с другом

как?

Никак. Враньё лчнредное

Автоматически.
Один агент может вызвать субагента без главного контектса, че-нить там поискать не отвлекаясь на глобальные указания. От программиста это мало зависит когда и как будут вызваны субагенты.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации