GPT-5.1-Codex-Max в прошлый раз сделал ставку на масштаб: компакция контекста и агентные циклы длиной в сутки. GPT-5.2-Codex развивает ту же идею, но делает её более надёжной и прикладной для реальных продакшн-сценариев.

Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:

  • SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)

  • Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах

Ключевое отличие — эволюция компакции. Если раньше она позволяла «просто не терять контекст», то теперь модель лучше удерживает план, корректирует стратегию после неудач и реже скатывается в повторные попытки. Это особенно заметно на больших рефакторингах и миграциях, где Codex теперь дольше работает автономно.

Вторая крупная ось апдейта — defensive cybersecurity. В отличие от 5.1-Codex-Max, GPT-5.2-Codex целенаправленно прокачан под security-workflow: анализ attack surface, воспроизведение уязвимостей, fuzzing и валидацию багов. На профессиональных CTF-оценках это уже третий подряд скачок качества для линейки Codex.

Показательный кейс — поиск уязвимостей в React Server Components: при работе над известным CVE модель помогла выявить несколько новых багов, которые прошли responsible disclosure и были закрыты апстримом. По сути, Codex здесь выступает как ускоритель полноценного security-ресёрча, а не вспомогательный тул.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!