В среду компания OpenAI объявила о запуске o3 и o4-mini — новых моделей рассуждений AI, которые позволяют делать паузу и обдумывать вопросы перед ответом. Компания называет o3 своей самой передовой моделью рассуждений, которая превзошла предыдущие модели компании в тестах, измеряющих возможности математики, кодирования, рассуждения, науки и визуального понимания. Между тем, o4-mini предлагает то, что OpenAI называет конкурентоспособным компромиссом между ценой, скоростью и производительностью — тремя факторами, которые разработчики часто учитывают при выборе модели AI для своих приложений.

В отличие от предыдущих моделей рассуждений, o3 и o4-mini могут генерировать ответы с использованием инструментов ChatGPT, таких как просмотр веб-страниц, выполнение кода Python, обработка изображений и генерация изображений. Начиная с сегодняшнего дня, модели, а также вариант o4-mini под названием «o4-mini-high», который тратит больше времени на создание ответов для повышения своей надежности, доступны для подписчиков планов Pro, Plus и Team от OpenAI.
Новые модели являются частью усилий OpenAI по победе над Google, Meta*, xAI, Anthropic и DeepSeek в беспощадной глобальной гонке AI. Хотя OpenAI был первым, кто выпустил модель рассуждений AI, o1, конкуренты быстро последовали за ним с собственными версиями, которые соответствуют или превосходят производительность линейки OpenAI. Фактически, модели рассуждений начали доминировать в этой области, поскольку лаборатории ИИ стремятся выжать больше производительности из своих систем.
O3 едва не не был выпущен в ChatGPT. Генеральный директор OpenAI Сэм Альтман дал понять в феврале, что компания намерена выделить больше ресурсов на сложную альтернативу, которая бы включала технологию o3. Но конкурентное давление, по-видимому, подтолкнуло OpenAI в конечном итоге изменить курс.
OpenAI утверждает, что o3 достигает высочайшей производительности на SWE-bench verified (без пользовательского скаффолдинга), тесте, измеряющем способности кодирования, набрав 69,1%. Модель o4-mini достигает аналогичной производительности, набрав 68,1%. Следующая лучшая модель OpenAI, o3-mini, набрала 49,3% на тесте, в то время как Claude 3.7 Sonnet набрала 62,3%.
OpenAI утверждает, что o3 и o4-mini — это ее первые модели, которые могут «думать образами». На практике пользователи могут загружать изображения в ChatGPT, например, эскизы на доске или диаграммы из PDF-файлов, а модели будут анализировать изображения во время фазы «цепочки мыслей», прежде чем дать ответ. Благодаря этой новой способности o3 и o4-mini могут понимать размытые и некачественные изображения и выполнять такие задачи, как масштабирование или поворот изображений по мере их рассуждения.
Помимо возможностей обработки изображений, o3 и o4-mini могут запускать и выполнять код Python непосредственно в вашем браузере с помощью функции Canvas ChatGPT, а также выполнять поиск в Интернете при появлении запроса о текущих событиях.
Помимо ChatGPT, все три модели — o3, o4-mini и o4-mini-high — будут доступны через конечные точки OpenAI для разработчиков, API завершения чата и API ответов, что позволит инженерам создавать приложения с использованием моделей компании по тарифам, зависящим от использования.
OpenAI взимает с разработчиков относительно низкую цену за o3, учитывая его улучшенную производительность, в размере 10 долларов за миллион входных токенов (примерно 750 000 слов, длиннее серии «Властелин колец») и 40 долларов за миллион выходных токенов. За o4-mini OpenAI взимает ту же цену, что и o3-mini, 1,10 доллара за миллион входных токенов и 4,40 доллара за миллион выходных токенов.
OpenAI заявляет, что в ближайшие недели планирует выпустить o3-pro — версию o3, которая использует больше вычислительных ресурсов для получения ответов, эксклюзивно для подписчиков ChatGPT Pro.
Генеральный директор OpenAI Сэм Альтман заявил, что o3 и o4-mini могут стать последними автономными моделями рассуждений ИИ в ChatGPT перед GPT-5 — моделью, которая, по словам компании, объединит традиционные модели, такие как GPT-4.1, с ее моделями рассуждений.