runaway_llm19 ноя 2025 в 18:39

OpenAI выпустила GPT-5.1-Codex-Max — новый лидер в программировании

1 мин

9.9K

Искусственный интеллектМашинное обучение *

Комментарии 8

alexmasyukov 20 ноя 2025 в 05:09

Речь НЕ про вайбкодинг.
Опробовал сегодня GPT-5.1-Codex-Max на большой задаче для фронтенда (задевающая 22 файла) в Codex cli, в Claude Code Sonnet 4.5 на ultrathink не смог, Opus 4.1 ultrathink не смог, с трех итераций не смогли, новая модель Codex смогла с первой итерации, и потрачено 6% недельного лимита (от 20$ подписки Pro).
Уже третий раз замечаю – на комплексных задачах Codex модели работают ощутимо глубже и лучше, и скорость выросла в 5-6 раз в сравнении с прошлой их моделью (она была от 10 до 15 раз медленнее Opus, не говоря про Sonnet по личным замерам).
Но как ежедневный иструмент Codex cli остает "на десятиление" от Claude Code.
Выходит выгодно 20$ за Codex и 100$ за Claude Code, решать можно одновременно пару больших задач, особенно когда понятно по опыту, что на "этой" Sonnet не сможет ничего сделать комплексно.

ErrrikMartinez 20 ноя 2025 в 05:45

а кодекс 5.1 Макс доступен в $20 подписке?

alexmasyukov 20 ноя 2025 в 05:54

Raicon 20 ноя 2025 в 06:58

Поддерживаю. Claude code CLI на 100$ для решения основного пула задач

И vs code с подключенным Клод и кодекс, в котором чаще всего запускаю кодекс, если Клод тупит

Работает 💦

ArZr 20 ноя 2025 в 06:17

по собственным оценкам вернула первое место в нескольких бенчмарках по программированию

Интересные у них замеры, конечно. Странно видеть результат "73.7% accuracy" для GPT-5.1-Codex-High, когда:
- Буквально неделю назад они запостили результат в "76.3%" для GPT-5.1-High (тут даже новость была)
- У GPT-5-Codex-High заявлена точность в "74.5%" (тоже новость тут).

Такого рода "вайб замеры", конечно, не радуют от слова совсем (впрочем, большинство и так мутит воду с бенчмарками).

ShashkovS 20 ноя 2025 в 12:56

У меня не супер-сложная задача на большую C-кодовую базу.
Новая версия пока на все мои запросы через полторы минуты выдаёт «не шмогла ничего сделать за отведённое время».
Предыдущая делала правки.
Так что пока непонятное сравнение для моего проекта.

alexmasyukov 20 ноя 2025 в 13:57

Через какой инструмент работаете?

Vitaly1387 21 ноя 2025 в 05:52

Программирую на rust. GPT 5.1 так и не умеет писать на нем код. Правильно сказано судя по своим оценкам. По моей оценке не дотягивает и до соннет 4, где то на уровене glm 4.5 air. А вот новый Gemini отлично справился с задачей. GPT 5.1 также не справился со скриптом на python. claude sonnet и opus тоже. Gemini справился. Так что цифры не очем не говорят. Не стоит траты денег.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий