Comments 16
Вы оценивали модели по критериям, которых нет в промпте. Соответственно получился тест на умение модели угадать ваши желания.
Кроме того, вы использовал только одну попытку на каждую модель. Возможно, модели не угадывали, а просто вам повезло, и получилось то, что вы хотели (или наоборот).
Ага, оценивал по критериям модели, которых нет в промпте. Для понимания того, как они ведут себя вне промпта. Так сказать, хотел изучить их стиль
ну кстати по факту не одна попытка на модель
много чего осталось за кадром, попыток каждой выдавал много, результат примерно повторял друг друга. Я не выбирал лучший результат для каждой модели, а выбрал первый. Но и последующие были примерно в таком же стиле
Единственный момент который не учитывается в статье - codex был обучен на редактировании кода, прям очень сильно именно на редактирование заточен, и очень любит атомарные задачи. Он хорошо ищет root cause багов, умеет планировать мелкие шаги, его код проще ревьюить из за отсутствия лишних комментариеа и вбросов, и ОЧЕНЬ хорошо следует инструкциям. Если написать чтобы не кидал в игнор линтеры, он в стенку расшибется, но не выключит и спустя минут 10 честно распишется в собственной несостоятельности (а там косяк на моей стороне был).
Claude 4 (да и 3.7 тоже) с другой стороны может угадать желания и "сделать красиво", но с тем же успехом может нагородить отсебятины которую замучаешься вычищать, если включил автодополнение. Или не дай бог начнет ругаться линтер, Клод пару раз попробует починить и потом не смотря на инструкции возьмёт да выключит, и будет как в том видео где разраб орет в монитор "слушайся меня!"
Для себя я решил так, если надо написать разово скрипт или сделать базу для нового проекта - это claude однозначно, сделает все красиво, а если дать ему пару намеков то ещё и нагуглит с подключенными MCP, и сделает бомбезный прототип, особенно с UI и не в одну итерацию, а с улучшениями. Но до ума его доводить функционально лучше через codex, особенно если понимаешь что делаешь и можешь дать ценный фидбэк для модели и частенько пользуясь o3 или o3 pro который сегодня вышел.
Сейчас ставлю эксперимент - самостоятельно код не пишу в новом проекте, пишет только codex и параллельно пробую новый формат, когда codex запрашивает сложные вещи через меня у o3 pro. Пока работает, в архитектуре таким образом пока не накосячил нигде, только интерфейс не очень красивый, все таки без клода никуда.
Хочется конечно универсальную модель которая будет и сильной и с рассуждениями и красиво сделает. Но это скорее мечты, пока что с комбинированием достаточно хорошо получается, чтобы пет проекты на середине не забрасывать. Или наоборот ещё быстрее забрасывать когда очередной пет проект ещё быстрее наскучит. Недавно гугл слил в сеть на 20 минут свою новую модель Kingfall, и вроде как действительно новый король на горизонте. Если его в Jules подключат, то придется на их подписку переезжать видимо, ибо руки очень чешутся потрогать.

Спасибо за развернутый комментарий)
Тоже щас активно codex юзаю сижу даже из туалета 😁 Вместо рилсов
Кстати говоря, чтобы самому не мучиться с установкой зависимостей можно сделать 2 вещи.
1) В основном окружении поставить в скрипте "bash install_deps.sh", создать пустой файл в репозитории, включить интернет и попросить заполнить скрипт и github actions на него. И принимать PRы только если зависимости встали / тесты прошли.
2) сделать дополнительное окружение (с суффиксом -no-deps например) без скрипта в автозапуске на случай если что то сломается, node пакеты у меня иногда ломали запуск со скриптом. В таком случае когда таска упадет, можно сделать новую на фикс зависимостей, а в упавшей задаче после принятия фикса нажать повтор
Глянул кстати о3pro
Офигеть она стоит, в 10 раз дороже чем о3
И Дороже чем opus
Да вот жаба душит, буду отменять подписку, брал за 200 на один раз, чтобы кодексом попользоваться, а потом его в подписку Plus добавили тоже. А насколько жёсткие лимиты на кодекс в подписке за 20? Судя по интервью разработчиков на каком то Ютуб канале, в Pro версии во время превью дают хоть раз в минуту по контейнеру запускать, 60 в час они говорили. Такое я точно никогда не "съем" даже в моменты когда вдохновение накатывает и могу параллельно по 5 задач делать
Да, странный тест. Поставить неконкретную задачу и потом ожидать то, чего не было в задании, и за это снижать оценку.
Так в этом и был мой эксперимент, как минимум для себя
Конкретных тестов много существует, да и сам делал много конкретики раньше
Тут захотелось изучить вопрос в том, а как они будут себя вести без конкретики
Условный Opus же справился в одном стиле, а о3 в другом, хотя промпт был одинаковый.
Специально, что бы не фреймить модели на слишком точную задачу
У Вас написано это далековато от начала текста. Хорошо бы акцентировать внимание сразу на том что Вы хотите проверить. Плюс я не понял слово "фреймить" в данном контексте. Но работа проделана большая, понимаю. В целом статья оформлена довольно хорошо. Но лично у меня возникли такие сложности.
Gemini 2.5 Pro надо было ещё потестировать. Уж точно получше был бы chatgpt
О, спасибо
Вот, это на Pro
https://gemini.google.com/share/6e840f10ef32
250 строк кода, view port есть
По результату где то около Sonnet 3.7 на первый взгляд
А вот Flash сделал капец неожиданное -- он каждый раз обращается к API Gemini для того, чтобы передать промпт и вернуть результат. Т.е. он реально каждый раз промптит, офигеть
https://gemini.google.com/share/13cd6956bb2f
if (selectedChange) {
const fullPrompt = ${basePrompt} ${selectedChange.prompt_segment}
;
const storyHtml = await fetchStoryFromGemini(fullPrompt);
outputStory.innerHTML = storyHtml;
}
А в чем смысл такого промта, что это за игра?
Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей