OpenAI выпустила GPT-5.4 — новую флагманскую модель, которая заменяет сразу две предшественницы: GPT-5.2 (универсальную) и GPT-5.3-Codex (кодерскую). Контекстное окно выросло до 1,05 млн токенов — в 2,5 раза больше, чем у GPT-5.2. При этом GPT-5.4 — самая токеноэффективная модель серии: она тратит значительно меньше токенов на решение тех же задач, что частично компенсирует рост цены в API до $2,50 за миллион входных и $15 за миллион выходных токенов. Для сложных задач доступна GPT-5.4-pro ($30/$180).
Главная новинка — встроенный computer use: GPT-5.4 стала первой основной моделью OpenAI, которая умеет взаимодействовать с программами через интерфейс — читать скриншоты, нажимать кнопки, заполнять формы и проверять результат. Раньше эта функция была доступна только в экспериментальных моделях. Еще одно нововведение — tool search, позволяющий подгружать определения инструментов по запросу, а не передавать все сразу. Это снижает расход токенов и улучшает точность выбора нужного инструмента в сложных агентных сценариях.

На бенчмарках GPT-5.4 заметнее всего прибавила именно в агентных задачах (далее все сравнения - с GPT-5.2): на OSWorld-Verified — 75% против 47,3% у GPT-5.2, на BrowseComp — 82,7% против 65,8%, на GDPval — 83% против 70,9%. Результаты на SWE-Bench Pro скромнее: 57,7% против 55,6%. Максимальный уровень рассуждений расширен до xhigh — режим "экстремального мышления", в котором модель тратит значительно больше вычислительных ресурсов на сложные задачи. Кроме того, OpenAI называет GPT-5.4 самой точной моделью: ложные утверждения встречаются на 33% реже, а доля ответов с ошибками снизилась на 18%.
Модель также получила нативную поддержку компакции — сжатия контекста для длинных агентных сессий, чтобы не терять ключевую информацию при многошаговых задачах. GPT-5.4 стала дефолтной моделью и в API, и в Codex. В ChatGPT модель раскатывается прямо сейчас, пользователи Pro-подписки сразу получат Pro-версию.
Еще одно заметное изменение в ChatGPT: GPT-5.4 Thinking теперь показывает план работы перед выполнением сложного запроса — пользователь может скорректировать направление прямо в процессе, не дожидаясь готового ответа.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
