Raicon Jun 9 at 07:43

Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей

8 min

12K

Artificial IntelligenceIT Infrastructure * The future is hereLifehacks for geeksDevelopment Management *

+26

Comments 16

Tassdesu Jun 9 at 08:34

Вы оценивали модели по критериям, которых нет в промпте. Соответственно получился тест на умение модели угадать ваши желания.

Кроме того, вы использовал только одну попытку на каждую модель. Возможно, модели не угадывали, а просто вам повезло, и получилось то, что вы хотели (или наоборот).

Raicon Jun 9 at 10:45

Ага, оценивал по критериям модели, которых нет в промпте. Для понимания того, как они ведут себя вне промпта. Так сказать, хотел изучить их стиль

ну кстати по факту не одна попытка на модель

много чего осталось за кадром, попыток каждой выдавал много, результат примерно повторял друг друга. Я не выбирал лучший результат для каждой модели, а выбрал первый. Но и последующие были примерно в таком же стиле

thethee Jun 11 at 01:16

Единственный момент который не учитывается в статье - codex был обучен на редактировании кода, прям очень сильно именно на редактирование заточен, и очень любит атомарные задачи. Он хорошо ищет root cause багов, умеет планировать мелкие шаги, его код проще ревьюить из за отсутствия лишних комментариеа и вбросов, и ОЧЕНЬ хорошо следует инструкциям. Если написать чтобы не кидал в игнор линтеры, он в стенку расшибется, но не выключит и спустя минут 10 честно распишется в собственной несостоятельности (а там косяк на моей стороне был).

Claude 4 (да и 3.7 тоже) с другой стороны может угадать желания и "сделать красиво", но с тем же успехом может нагородить отсебятины которую замучаешься вычищать, если включил автодополнение. Или не дай бог начнет ругаться линтер, Клод пару раз попробует починить и потом не смотря на инструкции возьмёт да выключит, и будет как в том видео где разраб орет в монитор "слушайся меня!"

Для себя я решил так, если надо написать разово скрипт или сделать базу для нового проекта - это claude однозначно, сделает все красиво, а если дать ему пару намеков то ещё и нагуглит с подключенными MCP, и сделает бомбезный прототип, особенно с UI и не в одну итерацию, а с улучшениями. Но до ума его доводить функционально лучше через codex, особенно если понимаешь что делаешь и можешь дать ценный фидбэк для модели и частенько пользуясь o3 или o3 pro который сегодня вышел.

Сейчас ставлю эксперимент - самостоятельно код не пишу в новом проекте, пишет только codex и параллельно пробую новый формат, когда codex запрашивает сложные вещи через меня у o3 pro. Пока работает, в архитектуре таким образом пока не накосячил нигде, только интерфейс не очень красивый, все таки без клода никуда.

Хочется конечно универсальную модель которая будет и сильной и с рассуждениями и красиво сделает. Но это скорее мечты, пока что с комбинированием достаточно хорошо получается, чтобы пет проекты на середине не забрасывать. Или наоборот ещё быстрее забрасывать когда очередной пет проект ещё быстрее наскучит. Недавно гугл слил в сеть на 20 минут свою новую модель Kingfall, и вроде как действительно новый король на горизонте. Если его в Jules подключат, то придется на их подписку переезжать видимо, ибо руки очень чешутся потрогать.

Raicon Jun 11 at 03:59

Спасибо за развернутый комментарий)

Тоже щас активно codex юзаю сижу даже из туалета 😁 Вместо рилсов

thethee Jun 11 at 07:07

Кстати говоря, чтобы самому не мучиться с установкой зависимостей можно сделать 2 вещи.

1) В основном окружении поставить в скрипте "bash install_deps.sh", создать пустой файл в репозитории, включить интернет и попросить заполнить скрипт и github actions на него. И принимать PRы только если зависимости встали / тесты прошли.

2) сделать дополнительное окружение (с суффиксом -no-deps например) без скрипта в автозапуске на случай если что то сломается, node пакеты у меня иногда ломали запуск со скриптом. В таком случае когда таска упадет, можно сделать новую на фикс зависимостей, а в упавшей задаче после принятия фикса нажать повтор

Raicon Jun 11 at 04:17

Глянул кстати о3pro

Офигеть она стоит, в 10 раз дороже чем о3

И Дороже чем opus

thethee Jun 11 at 07:10

Да вот жаба душит, буду отменять подписку, брал за 200 на один раз, чтобы кодексом попользоваться, а потом его в подписку Plus добавили тоже. А насколько жёсткие лимиты на кодекс в подписке за 20? Судя по интервью разработчиков на каком то Ютуб канале, в Pro версии во время превью дают хоть раз в минуту по контейнеру запускать, 60 в час они говорили. Такое я точно никогда не "съем" даже в моменты когда вдохновение накатывает и могу параллельно по 5 задач делать

Raicon Jun 11 at 09:35

пока не столкнулся с лимитами
Но я не то чтобы активно

У меня в основном Claude через GitHub MCP работает

Andchir Jun 9 at 09:03

Да, странный тест. Поставить неконкретную задачу и потом ожидать то, чего не было в задании, и за это снижать оценку.

Raicon Jun 9 at 10:43

Так в этом и был мой эксперимент, как минимум для себя

Конкретных тестов много существует, да и сам делал много конкретики раньше

Тут захотелось изучить вопрос в том, а как они будут себя вести без конкретики

Условный Opus же справился в одном стиле, а о3 в другом, хотя промпт был одинаковый.

Andchir Jun 9 at 11:50

Специально, что бы не фреймить модели на слишком точную задачу

У Вас написано это далековато от начала текста. Хорошо бы акцентировать внимание сразу на том что Вы хотите проверить. Плюс я не понял слово "фреймить" в данном контексте. Но работа проделана большая, понимаю. В целом статья оформлена довольно хорошо. Но лично у меня возникли такие сложности.

Raicon Jun 9 at 12:12

Понял, тогда добавлю сейчас пояснение, спасибо 💗

koltykov Jun 10 at 03:32

Gemini 2.5 Pro надо было ещё потестировать. Уж точно получше был бы chatgpt

Raicon Jun 10 at 07:01

О, спасибо

Вот, это на Pro
https://gemini.google.com/share/6e840f10ef32

250 строк кода, view port есть

По результату где то около Sonnet 3.7 на первый взгляд

А вот Flash сделал капец неожиданное -- он каждый раз обращается к API Gemini для того, чтобы передать промпт и вернуть результат. Т.е. он реально каждый раз промптит, офигеть
https://gemini.google.com/share/13cd6956bb2f

if (selectedChange) {

const fullPrompt = ${basePrompt} ${selectedChange.prompt_segment};

const storyHtml = await fetchStoryFromGemini(fullPrompt);

outputStory.innerHTML = storyHtml;

}

AppCrafter Jun 12 at 21:16

А в чем смысл такого промта, что это за игра?

Raicon Jun 13 at 15:21

Понравился, искал какой-то необычный промпт, где и код, и UX|UI и текст, и концептуальное понимание будут вместе. И одновременно такой, который все модели смогут сделать