Neurosonya6 фев в 13:30

Claude Opus 4.6 vs GPT-5.3 Codex: как выбрать модель под ваши задачи

Простой

7 мин

17K

Искусственный интеллектМашинное обучение * Программирование * Текстовые редакторы и IDE * DevOps *

Обзор

Комментарии 13

MrZorg 6 фев в 16:32

Антропики дали бонус 50$ при превышении лимита, новый Opus съел 20$ при 3 4 запросах общих правках примерно 5-6к строк. Судя по эффекту какое-то новое "волшебство" в расчете сумм. Так что Codex без вариантов.

irgegh 9 фев в 08:14

Подписку для кого придумали? За 20$ у меню ~6к строк. Но через 5 часов все сбросится и я сново смогу писать. И так месяц. Если мало - купите подписку чуть дороже

sickfar 6 фев в 21:57

Решил попробовать кодекс. Открыл. Попросил запустить андроид эмулятор фоновым процессом. 5 минут смотрел на цирк. Запустил сам. Попросил запустить аппиум. 5 минут смотрел на цирк. Запустил сам. Попросил запустить тесты. Тесты запустил. Попросил проанализировать падение. Обрезал вывод при первом запуске через grep, так что ничего не смог понять. Не додумался посмотреть в junit report. Запустил тесты еще раз с тем же грепом. Потом еще раз но уже без грепа. На третий раз упал аппиум (это известная проблема, решается перезапуском) и мы снова уперлись в цирк «запусти аппиум». Не знаю о какой автономности идет речь. Почесал репу и закрыл кодекс. Вернулся на Claude, и даже Haiku 4.5 справилась со всеми этими задачами сама без единого моего участия. Еще и тесты починила. Хорошо еще что я успел потестировать в окно бесплатного доступа к кодексу, а не подписался.

ToniDoni 7 фев в 00:04

Как интересно, выложили бы на гитхаб проект с тестовыми промптам, может в новый реальный бенчмарк вырастит

sickfar 7 фев в 14:26

Ну проект приватный, а во-вторых какие там промпты? «Start android emulator as a background process», только и всего

ToniDoni 9 фев в 19:35

ну и что, в тестах главное чтобы они были воспроизводимыми

EmCreatore 6 фев в 22:52

По моему опыту в статье сильно неправильные оценки.

Claude Opus 4.6 и быстрее, и точнее, и полнее. Во всех задачах!
Codex включать не имеет смысла. Gemini 3 и тот будет умнее.
Codex и рассуждает мало и отвечает дольше.

Огромное контекстное окно пользы не дает. Даже приходится убивать диалог, когда контекст из-за истории раздувается. Особенно добивает, когда агенты начинаю впадать в ступор из-за большого контекста. Ждать можно десятками минут!

Однако за сессию агент может скачать и обработать гораздо больше данных чем размер контекста. Но эта фича уже давно у всех. Даже GPT 5 умел работать агентом и так собирать данные.
Зато теперь есть скилы и агенты могут не засорять свой контекст огромными инструкциями на все случаи жизни, а брать только инструкции из нужных скилов. Это отодвигает проблему окна контекста еще дальше.

ComboDro 3 мар в 19:54

Несогласен, Gemini 3 Pro немного тупее Codex 5.3

Уже 4 месяца юзаю всевозможные ии и есть огромная выборка.

Cloud
2. Codex
Gemini
Спецом скармливаю 3 проекта с ошибками и только Gemini говорит все отлично. Я это делаю каждый раз при выходе новой модели и каждый раз одно и то-же. На перед отвечу, Antigravity у меня годовая подписка и ChatGPT Plus. Бесплатным не пользуюсь 4 месяца как.

ToniDoni 7 фев в 00:04

агенты координируют действия друг с другом

как?

botyzanzylyvseNIKI 7 фев в 05:28

Никак. Враньё лчнредное

EmCreatore 7 фев в 14:14

Автоматически.
Один агент может вызвать субагента без главного контектса, че-нить там поискать не отвлекаясь на глобальные указания. От программиста это мало зависит когда и как будут вызваны субагенты.

ToniDoni 9 фев в 19:34

запустить субагент это другое, тут ничего не надо координировать

Forigen 9 фев в 08:13

Расскажите более менее удобно платить антропик из рф?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий