Как стать автором
Обновить

OpenAI выпустила новые рекордные модели o3 и o4-mini

Время на прочтение8 мин
Количество просмотров12K

Шаг к ещё более «умному» искусственному интеллекту

Компания OpenAI анонсировала выпуск двух новых моделей из серии o: OpenAI o3 и OpenAI o4-mini. По словам разработчиков, они представляют собой «самые интеллектуальные модели, созданные на сегодняшний день», и впервые объединяют в себе расширенные навыки рассуждений с широким доступом ко всем инструментам внутри ChatGPT. Это означает, что для решения сложных задач модели могут:

  1. Выполнять поиск в Интернете в реальном времени.

  2. Анализировать загруженные файлы и другие источники данных с помощью Python (включая математические расчёты и статистические операции).

  3. Производить углублённый анализ визуальных входных данных (изображений, схем, рисунков).

  4. Генерировать изображения через встроенные графические инструменты.

  5. Комбинировать несколько инструментов за одно взаимодействие, если того требуют многошаговые задачи.

Таким образом, OpenAI o3 и OpenAI o4-mini нацелены на более «агентное» поведение в ChatGPT: модели автономно «решают», какой набор инструментов применить, чтобы создать максимально развёрнутый и точный ответ. По замыслу разработчиков, это приводит к значительному улучшению результатов в разнообразных сферах — от научных исследований и обучения до программирования и творчества.


Главное отличие: мощные рассуждения + полный набор инструментов

OpenAI o3 позиционируется как наиболее «продвинутая» модель в линейке, охватывающая широкий спектр дисциплин: программирование (включая Codeforces), сложную математику (AIME 2025), бизнес-консалтинг, биологию и инженерные задачи. Отмечается сильная сторона в «зрительном» восприятии (анализ картинок, диаграмм, чертежей) и способность к детальному пошаговому обсуждению гипотез. По официальным метрикам, o3 делает на 20% меньше серьёзных ошибок по сравнению с предыдущей моделью o1, особенно в вопросах программирования, бизнес-аналитики и генерации идей.

OpenAI o4-mini, в свою очередь, — оптимизированная по размеру версия, ориентированная на быстрое и недорогое развёртывание. Она демонстрирует впечатляющие результаты в математике (практически «закрыла» тест AIME 2025 при доступе к Python), обработке данных и визуальных задачах. Благодаря меньшему «весу» модель способна поддерживать более высокие лимиты использования: это хорошо подходит для проектов, где требуется частый запуск reasoning-запросов.


Преимущества новых моделей

1. Глубокие рассуждения и инструменты.

Нововведением стало «агентное» применение инструментов внутри ChatGPT: модель решает, когда нужен веб-поиск, когда нужно что-то визуализировать, а когда достаточно простого текста. В результате сложные вопросы решаются в минимальные сроки, при этом ответы более подробны и структурированы.

2. Ускоренное решение многоэтапных задач.

Задачи, где требуется последовательное применение нескольких инструментов (например, поиск в Интернете → анализ найденных данных → написание кода для дополнительного анализа), теперь выполняются быстрее и надёжнее. Модель самостоятельно «расписывает» цепочку действий и выдаёт итоги в удобном формате.

3. Новые рекорды по точности.

На открытых тестах — Codeforces, SWE-бенч (SWE-Bench Verified), AIME 2024–2025 (соревновательная математика) и GPQA (PhD-уровень вопросов) — o3 и o4-mini превзошли предыдущие модели серии o1 и o3-mini, а также были близки или превосходили их по быстродействию. Для вычислительных задач и программирования улучшение точности видно особенно отчётливо.

4. Мультимодальность и анализ изображений.

Теперь модели не только «видят» изображение, но и «мыслят» с опорой на визуальный контент, поворачивая или масштабируя снимки по мере необходимости. Это открывает путь к решению задач, основанных на графических данных: от научных иллюстраций до рукописных заметок, от схем и диаграмм до чертежей.

5. Более естественные диалоги и раскрытие контекста.

«Чувство разговора» усилено благодаря улучшенной памяти о предыдущих сообщениях в цепочке, что позволяет лучше понимать личные предпочтения пользователя, контекст или прошлую переписку. При этом инструменты встраиваются в диалог более органично.


Сравнительные результаты и таблицы

Разработчики предоставили множество сравнительных таблиц, подтверждающих качественные скачки. Ниже — краткие выдержки из различных бенчмарков:

  • AIME 2024 / 2025:

    • Модель o4-mini с доступом к Python набрала 99,5% баллов против ~98,4% у o3 (python only) и 79,2% у o1.

    • Без использования инструментов оценки чуть ниже, но всё равно сильно превосходят прошлые поколения.

  • Codeforces (Competition Code):

    • o3 (terminal access): ELO около 2706

    • o4-mini (terminal access): ELO около 2719

    • Для сравнения, o1 — ELO порядка 1891.

  • GPQA Diamond (PhD-level):

    • Модель o3 (с Python + Browsing) достигла 24,9% точности, а при дополнительном специализированном режиме — 26,6%.

    • o1-pro — 8,12%.

    • o4-mini (no tools) — 14,28%, с Python + Browsing — до 17,7%.

  • SWE-Bench Verified (программирование в крупных кодовых базах):

    • o3: 69,1% точных решений.

    • o1: 48,9%.

    • o4-mini — около 68,1%, чуть ниже o3, но при этом «mini»-архитектура требует меньше вычислительных ресурсов.

Кроме того, o3 и o4-mini получили крайне положительные отзывы в категориях «business/consulting» и «creative ideation». Их способность к «дисциплинированной» аргументации и креативному поиску гипотез выделяется на фоне предыдущего поколения.


Масштабное обучение через Reinforcement Learning

Отдельно OpenAI подчёркивает, что o3 — это итог больших экспериментов в области масштабирования RL (reinforcement learning), где «больше вычислительных мощностей» напрямую ведёт к «лучшим показателям» на всех тестах (автоматизированная генерация данных для обучения). Аналогичную тенденцию разработчики наблюдали и при подготовке GPT-серий, но теперь решили углубиться именно в пост-тренировочное RL на базе reasoning-трейнинга.

Инструментальное обучение.

Теперь модели отрабатывают не только «как пользоваться» встроенными инструментами (Python, поиск, генерация изображений), но и «когда» их применять. Применение того или иного модуля оценивается с позиции «эффективности» решения. Итогом стала способность «o3» и «o4-mini» самостоятельно комбинировать несколько инструментов «на лету», адаптируясь к контексту задачи.


«Мышление с картинками»

Новое поколение моделей способно напрямую учитывать изображения внутри своей цепочки рассуждений:

«Они не просто видят картинку — они мыслят при помощи неё».

Благодаря этому, задачи по анализу визуальной информации, будь то размытие, отражение или низкое качество изображения, стали более доступны алгоритму. Результаты испытаний в мульти-модальных бенчмарках (например, MMMU и MathVista) показывают уверенный рост точности на 5–15% по сравнению с предшествующими моделями.


Более «агентная» работа с инструментами

Важное новшество: OpenAI o3 и o4-mini могут свободно вызывать любые встроенные в ChatGPT функции (включая пользовательские), используя механизм «function calling» по своему усмотрению. Например, если пользователь спрашивает: «Как изменилось летнее энергопотребление в Калифорнии за последние 3 года?», модель может:

  1. Выполнить поиск в интернете и найти общедоступные данные.

  2. С помощью Python выполнить сводку и построить прогноз.

  3. Сгенерировать график или диаграмму.

  4. Объяснить, какие факторы повлияли на динамику потребления.

Причём модель не останавливается на одном инструменте: она способна последовательно искать нужную информацию, кодировать и декодировать файлы, обращаться к внешнему API, анализировать изображения и т.д. Это открывает дорогу к более автономной работе ИИ и к автоматическому исполнению нескольких подзадач по цепочке.


Примеры (по данным OpenAI):

  • Сложная математика: Построение 19-й степени полинома с заданными коэффициентами. Модель o3 работает пошагово, используя Python для расчётов.

  • Бизнес-задачи: Анализ гостиничной индустрии, построение прогнозов спроса и выручки по городу, визуализация графиков, предложение оптимальных локаций для открытия новых отелей.

  • Научная сфера: Расширенный поиск по вебу (научные статьи), промежуточные расчёты в Python, чтение диаграмм и таблиц.

  • Спорт: Сравнение ключевых метрик MLB до и после введения новой системы (pitch-clock), с визуализацией трендов и ключевыми выводами.

Все «кейсы» объединяет единое: модель использует глубину рассуждения и «подключает» нужные инструменты в ходе одного диалога.


Отношение «стоимость–производительность»

OpenAI утверждает, что при равном объёме вычислительных ресурсов o3 фактически превосходит o1 (предыдущее поколение) и обеспечивает более высокое качество решений за те же деньги. Аналогично o4-mini улучшает показатели o3-mini. Результат: для широкого круга реальных задач новые модели зачастую оказываются и «умнее», и дешевле в эксплуатации.


Безопасность

Вместе с ростом возможностей появляются риски. OpenAI полностью пересмотрела набор данных для обучения модулей отказа (refusal prompts), где особое внимание уделено запросам в сфере биологической безопасности (biorisk), вредоносного ПО и попыткам «взломать» модель (jailbreak). Благодаря улучшенным фильтрам, o3 и o4-mini лучше распознают опасные и неуместные инструкции. Кроме того, модель научилась обходиться без «выдачи секретных материалов» при веб-поиске.

Помимо натренированных механизмов, организация ввела «монитор» на базе reasoning LLM, который контролирует, какие именно запросы поступают к модели. Если обнаруживается критическая или «граничная» тематика (особенно в сфере биорисков), система дополнительно «подстраховывает» модель и фиксирует возможные угрозы. По итогам внутренних «красных» тестов (~99% опасных запросов были успешно отфильтрованы).


Codex CLI: агентное программирование из терминала

Параллельно OpenAI запускает эксперимент «Codex CLI» — это минималистичная среда, где передовая модель (в том числе o3, o4-mini и GPT-4.1) способна интерпретировать команды прямо в терминале пользователя. Отдельно отмечена поддержка мультимодальных функций, включая распознавание «набросков» в виде изображений.

Явная попытка зайти в ту же историю, что и Claude Code от Anthropic.

Codex CLI опубликован как open-source на github.com/openai/codex и сопровождается призовым фондом в 1 млн долларов США для разработчиков, планирующих интеграции Codex CLI и новых моделей OpenAI. Примерные гранты будут выдаваться в эквиваленте 25 000 USD (API-кредитами).


Доступ и будущее развития

Новые модели поступают к пользователям ChatGPT (Plus, Pro, Team) незамедлительно:

  • o3, o4-mini, o4-mini-high заменяют прежние o1, o3-mini, o3-mini-high.

  • Бесплатные пользователи могут попробовать o4-mini, включив режим «Think» при вводе запроса.

  • ChatGPT Enterprise и Edu получат обновления через неделю.

В API OpenAI обе модели доступны немедленно: нужна авторизация и в некоторых случаях верификация организации. В будущем будет также представлен o3-pro для «профессиональных» сценариев. Разработчики сообщают, что стараются интегрировать «интеллектуальное использование инструментов» везде, чтобы повысить эффективность и продуктивность решений.

По заявлениям компании, это не конец пути: в грядущих моделях планируется дальнейшая синергия между «GPT-семейством» и «o-серией» для ещё более «природного» общения с одновременной способностью к сложным и глубоко структурированным вычислениям.


Итог

Выход OpenAI o3 и OpenAI o4-mini обозначает качественно новую ступень в развитии reasoning-моделей с полным доступом ко всем инструментам ChatGPT. Они одновременно решают расширенный спектр академических задач и демонстрируют высокую гибкость в реальных кейсах — от бизнеса до науки и работы с изображениями. При этом OpenAI подчёркивает, что меры безопасности (refusal prompts, мониторинг) адаптированы к возросшим возможностям моделей.

Самая важная мысль, которую подчеркивают представители OpenAI: «Мы объединили лучшее из GPT‑подхода к диалогам и инструментам с глубоким агентным reasoning, характерным для o-серии». По словам разработчиков, это ещё один шаг к более «самостоятельному» искусственному интеллекту, который не только отвечает на вопросы, но и способен полномасштабно решать задачи, беря часть рутины на себя и предоставляя пользователям готовые, всесторонне проработанные решения.


P.S. Я очень много пишу про разработку c ИИ у себя в телеграм-канале. Заставляю ИИ писать хороший код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ (и как раз на днях потестирую эти o3 и o4-mini). А ещё недавно стал выкладывать подобные обзоры на ютуб. Велком!

Теги:
Хабы:
+4
Комментарии18

Другие новости

Работа

Data Scientist
46 вакансий

Ближайшие события