Релиз OpenAI GPT-5.3-Codex – на 25% быстрее, новые достижения на SWE-Bench Pro и Terminal-Bench / Хабр

OpenAI представила GPT-5.3-Codex – новую флагманскую модель, которая является самым мощным агентом для кодирования на сегодняшний день. Модель на 25% быстрее предыдущей версии, объединяет передовые возможности кодирования GPT-5.2-Codex с рассуждениями и профессиональными знаниями GPT-5.2, а также знаменует собой важный концептуальный сдвиг.

GPT-5.3-Codex – это первая модель OpenAI, которая активно участвовала в создании самой себя.

Как утверждается в блоге компании, команда Codex использовала ранние версии модели для отладки ее же обучения, управления развертыванием и диагностики результатов тестов. “Наша команда была потрясена тем, насколько Codex смог ускорить собственное развитие”, – пишут разработчики.

С технической точки зрения модель устанавливает новый state-of-the-art на SWE-Bench Pro (бенчмарк для кодинга) и Terminal-Bench 2.0, демонстрируя лидерство в терминальных навыках. При этом она достигает этих результатов, расходуя меньше токенов, чем предыдущие модели.

В сфере профессиональных знаний, измеряемой тестом GDPval, GPT-5.3-Codex соответствует уровню GPT-5.2.

Впечатляющий прогресс наблюдается в области десктопного использования: модель показывает значительный рост на OSWorld-Verified – бенчмарке, который оценивает выполнение задач в визуальной среде Ubuntu, Windows и macOS. Codex эволюционирует из агента, пишущего код, в агента, способного делать почти все то же, что разработчики и профессионалы делают на компьютере.

Одной из ключевых новых фич является интерактивность. GPT-5.3-Codex позиционируется не как “черный ящик”, который выдает готовый ответ, а как коллега в реальном времени. Модель может делиться прогрессом, объяснять свои решения и позволяя пользователю направлять ход мыслей в процессе работы, а не ждать финального результата.

Чтобы продемонстрировать веб-разработку и способность к длительным автономным задачам, OpenAI поручила GPT-5.3-Codex создать две игры: вторую версию гоночной игры (с релиза приложения Codex) и дайвинг-игру. Используя навык “develop web game” и общие промпты вроде “Исправь баг” или ”Улучши игру”, модель итерировала над играми автономно в течение миллионов токенов.

В сравнении с предшественником GPT-5.3-Codex также лучше понимает намерения пользователя при создании сайтов. Например, на запрос о создании лендинга, новая модель автоматически отобразила годовой план как помесячную оплату со скидкой, создала карусель с тремя разными отзывами, а не одним, из коробки сделав страницу более завершенной.

Кибербезопасность: высший рейтинг и новые инициативы

В свете растущих возможностей OpenAI принимает и серьезные предосторожности. GPT-5.3-Codex – первая модель, классифицируемая как high capability для задач, связанных с кибербезопасностью. Это также первая модель, которая обучалась целенаправленно для идентификации уязвимостей в ПО.

Модель была спроектирована, обучена и развернута на системах NVIDIA GB200 NVL72.

С релизом GPT-5.3-Codex Codex переступает грань между написанием кода и использованием компьютера как инструмента для выполнения работы от начала до конца. “То, что начиналось как фокус на лучшем кодинг-агенте, стало фундаментом для более универсального коллеги за компьютером”, – резюмируют в OpenAI, намекая на будущее, где ИИ-агенты станут неотъемлемой частью всего спектра интеллектуального труда.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Релиз OpenAI GPT-5.3-Codex – на 25% быстрее, новые достижения на SWE-Bench Pro и Terminal-Bench

Кибербезопасность: высший рейтинг и новые инициативы

Другие новости

Информация