
OpenAI и Cerebras представили GPT-5.3-Codex-Spark – сверхбыструю модель для кода, которая доступна уже сегодня в виде research preview для подписчиков ChatGPT Pro. В отличие от больших размышляющих версий, Spark создан для работы в реальном времени: он делает 1000 токенов в секунду (это вообще законно?), почти не заставляя ждать ни первый токен, ни завершение ответа. Идея простая: убрать паузы из диалога с ИИ, чтобы разработчик мог прерывать, перенаправлять и тут же получать изменения – как при общении с живым коллегой.
Код со скоростью мысли
GPT-5.3-Codex-Spark – это первая модель, которая по-настоящему использует преимущества партнёрства с Cerebras, анонсированного в январе. Она работает на специализированном чипе Wafer Scale Engine 3 – огромном монолитном ускорителе размером с пластину, который изначально заточен под инференс с минимальной задержкой. Cerebras берёт на себя задачи, где важна каждая миллисекунда, а GPU остаются основой для тяжёлых вычислений и балансировки стоимости.
Инженеры OpenAI не ограничились заменой железа: они переписали ключевые компоненты своей инфраструктуры, внедрили постоянное WebSocket-соединение и оптимизировали Responses API. Результат впечатляет даже без учёта Cerebras:
на 80% снизились накладные расходы на каждый клиент-серверный цикл;
на 30% упала стоимость обработки одного токена;
вдвое сократилось время до появления первого токена.
Эти улучшения будут постепенно распространены на все модели, но Codex-Spark получает и�� уже сейчас по умолчанию.
Бенчмарки, доступность и безопасность
Несмотря на малый размер, Spark не жертвует качеством там, где это критично. На бенчмарках агентной разработки SWE-Bench Pro и Terminal-Bench 2.0 он показывает результаты, близкие к старшей версии GPT-5.3-Codex, – но укладывается в доли времени, которые требуются “большому брату”.


Сейчас модель работает только с текстом и имеет контекстное окно 128K токенов. Она доступна в приложении Codex, интерфейсе командной строки и расширении для VS Code. Пользователи ChatGPT Pro могут опробовать Spark сразу, при этом его собственные лимиты не пересекаются с обычными квотами. Правда, в часы пик возможны очереди и ограничения – так OpenAI балансирует нагрузку на новом оборудовании.
“Нас больше всего вдохновляет возможность вместе с OpenAI и сообществом разработчиков открыть, что способна дать действительно быстрая инференция: новые паттерны взаимодействия, новые сценарии использования и принципиально иной опыт работы с моделью. Эта превью-версия – только начало”.
– Шон Ли, технический директор и сооснователь Cerebras.
Что дальше?
OpenAI видит будущее за гибридным подходом: крупные модели будут брать на себя долгие задачи (часы и дни автономной работы), а Spark-подобные агенты – моментально реагировать на запросы в моменте. Со временем граница сотрётся: нейросеть сможет одновременно держать с пользователем интерактивный диалог и раскидывать фоновые подзадачи на десятки быстрых “кодеров”.
Пока же разработчикам предлагают экспериментировать и давать обратную связь. Доступ к API пока открыт лишь узкому кругу дизайн-партнёров, но в ближайшие недели его начнут расширять. Следом обещают более крупные версии, увеличенный контекст и мультимодальность.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
