Комментарии 8
Речь НЕ про вайбкодинг.
Опробовал сегодня GPT-5.1-Codex-Max на большой задаче для фронтенда (задевающая 22 файла) в Codex cli, в Claude Code Sonnet 4.5 на ultrathink не смог, Opus 4.1 ultrathink не смог, с трех итераций не смогли, новая модель Codex смогла с первой итерации, и потрачено 6% недельного лимита (от 20$ подписки Pro).
Уже третий раз замечаю – на комплексных задачах Codex модели работают ощутимо глубже и лучше, и скорость выросла в 5-6 раз в сравнении с прошлой их моделью (она была от 10 до 15 раз медленнее Opus, не говоря про Sonnet по личным замерам).
Но как ежедневный иструмент Codex cli остает "на десятиление" от Claude Code.
Выходит выгодно 20$ за Codex и 100$ за Claude Code, решать можно одновременно пару больших задач, особенно когда понятно по опыту, что на "этой" Sonnet не сможет ничего сделать комплексно.
по собственным оценкам вернула первое место в нескольких бенчмарках по программированию
Интересные у них замеры, конечно. Странно видеть результат "73.7% accuracy" для GPT-5.1-Codex-High, когда:
- Буквально неделю назад они запостили результат в "76.3%" для GPT-5.1-High (тут даже новость была)
- У GPT-5-Codex-High заявлена точность в "74.5%" (тоже новость тут).
Такого рода "вайб замеры", конечно, не радуют от слова совсем (впрочем, большинство и так мутит воду с бенчмарками).
У меня не супер-сложная задача на большую C-кодовую базу.
Новая версия пока на все мои запросы через полторы минуты выдаёт «не шмогла ничего сделать за отведённое время».
Предыдущая делала правки.
Так что пока непонятное сравнение для моего проекта.
Программирую на rust. GPT 5.1 так и не умеет писать на нем код. Правильно сказано судя по своим оценкам. По моей оценке не дотягивает и до соннет 4, где то на уровене glm 4.5 air. А вот новый Gemini отлично справился с задачей. GPT 5.1 также не справился со скриптом на python. claude sonnet и opus тоже. Gemini справился. Так что цифры не очем не говорят. Не стоит траты денег.


OpenAI выпустила GPT-5.1-Codex-Max — новый лидер в программировании