Вышла GPT-5.3-Codex — модель, которая помогала создавать саму себя / Хабр

OpenAI представила GPT-5.3-Codex — новую флагманскую модель для кодинг-агента Codex, которая, по заявлению компании, участвовала в собственной разработке. Ранние версии модели дебажили тренировочный процесс, управляли деплоем и анализировали результаты оценок — команда OpenAI отмечает, что это существенно ускорило весь цикл разработки.

По бенчмаркам новинка показывает умеренный прирост в программировании — 56,8% на SWE-Bench Pro против 56,4% у предшественника — но заметный скачок в смежных задачах. На Terminal-Bench 2.0 результат вырос с 64% до 77,3%, а на OSWorld-Verified, где модель управляет десктопным компьютером через визуальный интерфейс, — с 38,2% до 64,7% (у людей на том же бенчмарке около 72%). При этом модель тратит меньше токенов, чем предыдущие версии, и работает на 25% быстрее.

Ключевой сдвиг — выход за пределы кода. OpenAI позиционирует GPT-5.3-Codex как универсального агента для «всего, что профессионалы делают за компьютером»: создание презентаций, анализ таблиц, написание документации, управление десктопными приложениями. На бенчмарке GDPval, который оценивает выполнение рабочих задач в 44 профессиях, модель набрала 70,9% — столько же, сколько GPT-5.2. Ещё одно нововведение — интерактивный режим: теперь агент регулярно отчитывается о прогрессе и позволяет корректировать задачу прямо в процессе работы.

Отдельный блок обновления — кибербезопасность. GPT-5.3-Codex стала первой моделью OpenAI с рейтингом High по кибербезопасности в рамках внутреннего Preparedness Framework и первой, которую целенаправленно обучали находить уязвимости в коде. Компания запускает пилотную программу Trusted Access for Cyber для исследователей безопасности и выделяет $10 млн в виде API-кредитов на защиту открытого ПО и критической инфраструктуры. Модель доступна платным подписчикам ChatGPT, доступ через API обещают позже.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.