1000 токенов в секунду: OpenAI выпустила суперскоростной ИИ для кодинга GPT-5.3-Codex-Spark / Хабр

OpenAI представила GPT-5.3-Codex-Spark — уменьшенную версию своей флагманской кодинг-модели GPT-5.3-Codex, оптимизированную для работы в реальном времени. Модель генерирует более 1000 токенов в секунду и работает не на GPU, а на специализированном чипе Cerebras Wafer Scale Engine 3. Это первый результат партнерства OpenAI и Cerebras, о котором компании объявили в январе.

Идея Spark — дополнить старшую модель, а не заменить ее. GPT-5.3-Codex заточена под длительные автономные задачи, где агент может работать часами и днями. Spark, наоборот, рассчитана на быстрый интерактивный цикл: точечные правки, рефакторинг логики, итерации над интерфейсом с мгновенной обратной связью. По данным OpenAI, генерация текста ускорена в 15 раз, время до первого токена сокращено на 50%, а задержка на каждый запрос — на 80% благодаря переходу на постоянное WebSocket-соединение.

За скорость приходится платить точностью. На SWE-Bench Pro — бенчмарке реальных инженерных задач на четырех языках — Spark набирает около 52% за 2–3 минуты, тогда как старшая GPT-5.3-Codex достигает ~57%, но тратит на ту же задачу до 16 минут. На Terminal-Bench 2.0 разница заметнее: 58,4% у Spark против 77,3% у флагмана. При этом Spark уверенно обходит предыдущую мини-модель GPT-5.1-Codex-mini (46,1% на том же бенчмарке).

Codex-Spark доступна в режиме research preview для подписчиков ChatGPT Pro — в приложении Codex, CLI и расширении VS Code. Контекстное окно — 128 тыс. токенов, пока только текст, без изображений. OpenAI также открыла доступ к модели через API для небольшой группы партнеров. Cerebras называет релиз возможностью "открыть принципиально новые паттерны взаимодействия с моделями" — и если OpenAI удастся масштабировать эту инфраструктуру, быстрый инференс может стать конкурентным преимуществом не только для кодинга.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.