Тестируем новые модели o3 и o4-mini от OpenAI / Habr

Привет! На связи Кирилл Филипенко, сисадмин в Selectel. Недавно OpenAI анонсировала два новых поколения моделей — o3 и o4-mini, которые стали частью линейки o-series. В статье разбираемся, за счет чего они получились мощнее, насколько дешевле обойдется их использование и какие кейсы стоит обязательно протестировать уже сегодня. В OpenAI уверены, что эти образцы задают новую планку того, каким должен быть AI-ассистент. Так ли это? Проверим под катом.

Используйте навигацию, если не хотите читать текст целиком:

→ Стоимость и доступность
→ Скорость и производительность
→ Возможности моделей
→ Как дела обстоят на самом деле
→ Выводы

По заявлению компании, это «самые умные и мощные LLM на сегодняшний день, ознаменовавшие качественный скачок в возможностях ChatGPT». Новые модели относятся к классу reasoning (рассуждающих) и способны «думать» перед формированием ответа. Благодаря этому существенно улучшается глубина и качество решений сложных задач.

Впервые модели OpenAI могут самостоятельно использовать весь набор инструментов, доступных в ChatGPT — от веб-поиска и анализа загруженных файлов через Python до глубокого понимания визуальной информации и даже генерации изображений. Более того, o3 и o4-mini научены решать, когда и как применять имеющиеся компоненты, чтобы менее чем за минуту выдавать развернутые и продуманные ответы в нужном формате.

Такие возможности приближают ChatGPT к более автономному помощнику, который может выполнять за пользователя сложные поручения. В совокупности передовые способности к рассуждению и полный доступ к инструментам дают существенный прирост результатов и на академических бенчмарках, и в практических задачах.

Стоимость и доступность

Новые o3 и o4-mini доступны как через интерфейс ChatGPT (платная подписка), так и с помощью API для разработчиков (оплата за токены).

Тариф для o3 составляет $10,00 за 1M input-токенов и $40,00 за 1M output-токенов. Предусмотрена возможность кеширования input-токенов за четверть цены. Повторное использование 1M токенов обойдется в $2,50.

Модель o4-mini заметно дешевле: $1,10 за 1M входных токенов и $4,40 за 1M выходных. Кеширование — $0,275 за 1M. OpenAI также предлагает Batch API для асинхронного выполнения заданий в течение 24 часов со скидкой на токены примерно 50%.

Для пользователей ChatGPT новые модели стали доступны сразу после анонса. Подписчики пакетов Plus, Pro и Team теперь видят o3, o4-mini, а также o4-mini-high — режим, в котором для модели выделяется больше вычислительных мощностей. Раньше в списке были o1, o3-mini и o3-mini-high. Корпоративные клиенты и образовательные аккаунты получат доступ через неделю после релиза.

Возможности o4-mini можно опробовать бесплатно, выбрав режим Think в интерфейсе перед отправкой запроса. При этом действуют стандартные ограничения по скорости и объему, аналогичные предыдущим моделям (хотя благодаря оптимизации o4-mini может обрабатывать больше запросов в единицу времени). Для доступа к API-версиям новых моделей некоторым разработчикам требуется пройти верификацию организации. Это мера безопасности, введенная OpenAI.

В дополнение к основному Chat Completions API OpenAI представила новый Responses API — специально для reasoning-моделей. Для улучшения качества он поддерживает, например, сохранение и выдачу как промежуточных «размышлений» модели, а также части токенов рассуждения вокруг вызовов функций. Скоро можно будет «из коробки» задействовать веб-поиск, файловый поиск и интерпретатор кода прямо в процессе вывода ответа.

Скорость и производительность

Новую o4-mini создавали с упором на скорость и эффективность. Это «меньшая» модель, оптимизированная для быстрого и экономичного рассуждения. Благодаря этому o4-mini подходит для задач с большим количеством запросов и строгими требованиями по времени отклика: модель поддерживает заметно более высокие лимиты использования по сравнению с o3. Фактически o4-mini — отличный выбор для сценариев массовых запросов, где важны одновременно и высокая пропускная способность, и низкая стоимость обработки.

Модель o3, несмотря на свою мощность, жертвует скоростью. Однако при той же задержке и затратах, что и у o1, o3 показывает значительно лучший результат и выдает более качественные решения за счет продвинутого «мышления». Уровень ответа o3 продолжает улучшаться, если давать ей больше времени на «обдумывание». Даже сложные запросы o3 и o4-mini обрабатывают менее чем за минуту, что является хорошим показателем, принимая во внимание объем внутренних процессов.

Отдельно стоит упомянуть контекстное окно этих моделей. Модели o3 и o4-mini способны учитывать очень длинный контекст предыдущего диалога или данных — вплоть до сотен тысяч токенов. В экспериментах разработчики использовали контекст длиной 256К токенов без значительной потери качества (для o3 и o3-mini заявлено окно ~200К токенов). Такой размер контекста на порядок превышает возможности GPT-4o и позволяет модели держать в памяти огромные объемы информации (например, большие документы или длинные истории взаимодействия) при решении задачи.

Возможности моделей

Новые модели получили целый набор улучшений и дополнительных возможностей по сравнению с предшественниками. Ниже перечислены ключевые особенности OpenAI o3 и o4-mini из официальных анонсов.

Важно учитывать, что во многих случаях компании, представляющие модели, не пренебрегают cherry piking-ом результатов, которые те показывают. Иными словами, пользователям подсовывают лучшие, специально отобранные ответы.

Глубокое рассуждение и цепочки инструментов

Модели o3 и o4-mini разработаны как агентные, умеющие самостоятельно разбивать сложную задачу на этапы и подключать внешние инструменты для решения каждого шага. Они имеют полный доступ к средствам в рамках ChatGPT (а через API — также к функциям разработчика) и умеют решать, когда и какой из них применить, чтобы получить верный ответ.

Такая гибкая и стратегическая работа позволяет решать задачи, требующие актуальной информации вне встроенных знаний модели, сложного рассуждения и синтеза данных. Все шаги планирования и выполнения модель проводит сама, предоставляя пользователю уже готовый ответ.

Мультимодальность и «мышление» с образами

Обе новые модели работают не только с текстом, но и непосредственно воспринимают и анализируют изображения. Впервые цепочка рассуждений модели может включать визуал как часть входных данных и внутренних мыслительных процессов. Как заявляют разработчики, модель не просто «видит» картинку, а думает с ее помощью: это открывает новые классы задач, где требуется комбинированное визуально-текстовое мышление.

По заявлениям OpenAI, o3 и o4-mini достигают лучших результатов в своем классе на задачах компьютерного зрения, позволяя решать вопросы, которые ранее были недоступны для LLM. Кроме того, в сочетании с имеющимися инструментами модели могут даже манипулировать изображениями: поворачивать, масштабировать, преобразовывать — и это часть процесса рассуждения. Отдельно отмечено, что модели успешно интерпретируют даже сложные или низкокачественные картинки — размытые фотографии, перевернутый текст, черновые наброски, — что говорит о высокой надежности их зрительного анализа.

Высокая точность на сложных задачах

Модель o3 стала флагманом OpenAI по интеллектуальным возможностям и установила новые рекорды на ряде бенчмарков. По данным OpenAI, o3 показала state-of-the-art результаты на тестах по программированию, на инженерно-математическом наборе задач SWE-bench (без специальных доработок под оптимальное прохождение теста) и в мультимодальном экзамене MMMU. Эта модель особенно сильна в решении сложных задач, требующих многоэтапного рассуждения и нестандартного подхода, а также блестяще справляется с визуальными заданиями — например, анализом изображений и графиков.

По независимой экспертной оценке, на сложных задачах из реального мира o3 допускала на 20% меньше серьезных ошибок, чем предыдущая o1. Особенно заметен прогресс в таких областях, как программирование, бизнес-аналитика, консалтинг и творческие задачи (например, генерация идей). Ранние тестировщики подчеркивали ее аналитическую строгость как интеллектуального помощника, а также способность создавать и критически оценивать новые гипотезы в таких сложных областях, как биология, математика и инженерные задачи.

Производительность mini-модели

OpenAI o4-mini при значительно меньших затратах выдает непропорционально высокий результат для своего размера. Эта модель бьет рекорды среди компактных LLM, особенно в задачах математики, программирования и работе с изображениями. На соревновании AIME (математический экзамен) за 2024 и 2025 годы o4-mini стала лучшей.

Примечательно, что с доступом к инструментам (например, Python для вычислений) o4-mini достигла 99,5% правильных решений на AIME-2025 и 100% при объединении восьми попыток. Конечно, напрямую сравнивать эти результаты с моделями, решавшими тест без инструментов, некорректно, но полученный опыт показывает, насколько успешно o4-mini умеет задействовать доступные средства.

Эффективность модели позволила повысить лимиты по количеству запросов (пока только через API), что делает o4-mini отличным выбором для массовых и потоковых задач, где нужна сила рассуждения.

Следование инструкциям и надежность ответов

В обеих новых моделях улучшены навыки точного следования инструкциям пользователя и генерации полезных, проверяемых ответов по сравнению с предыдущими версиями reasoning-моделей. Этому способствовали как общий рост «интеллекта» модели, так и обучение с учетом подключения к веб-источникам (умение находить и цитировать актуальные данные).

Модели o3 и o4-mini стали лучше учитывать контекст предыдущих сообщений и способны делать ответы более персонализированными, ссылаясь на детали прошлого диалога. Иными словами, во время сессии ChatGPT новая модель помнит и лучше учитывает то, что уже обсуждалось, что повышает связность и релевантность дальнейших ответов.

Как дела обстоят на самом деле

Несмотря на амбициозные заявления команды OpenAI, я решил лично проверить, на что действительно способны их новые модели. Ниже приведу несколько диалогов с о3, в которых попытаюсь выжать максимум.

Сразу уточню пару моментов: во всех кейсах буду использовать недавно заявленную функцию работы с изображениями. Именно она открывает доступ ко всему арсеналу модели и позволяет наиболее полно использовать ее возможности. Также, обращаю ваше внимание на то, что данная модель приводит все свои рассуждения в полностью закрытом виде, отдавая пользователю лишь краткое саммари по своим «мыслям». В моем случае все мысли — на английском языке, а все ответы на русском.

Кейс 1. Что выписал врач

Не секрет, что врачебный почерк порой превращает расшифровку рецептов в настоящее испытание. Посмотрим, как новенькая o3 справится с этой задачей — удастся ли ей распознать запись и действительно помочь.

Под рукой неразборчивого рецепта не оказалось, поэтому поискал в интернете. Подходящий образец нашелся на Reddit.

Источник.

Отправляем фотографию в чат и затаив дыхание ждем ответа на животрепещущий вопрос. Модель думает долго — целых 12  минут! За это время она обрезает изображение, настраивает цветокоррекцию и подбирает оптимальный ракурс, чтобы как можно точнее распознать, что же написано на листке. Итоговый ответ хоть и не поразил до глубины души, но все же вызвал искреннее удивление. Стилистика, орфография и пунктуация нейросети сохранены.

Thought for 12m 52s

Я внимательно “расшифровал” записку построчно. Почерк очень не‑аккуратный, поэтому ниже даю самую вероятную трактовку + пояснения, где могу ошибаться — если что‑то критично (например, дозировки / сроки), лучше уточнить у врача лично или в регистратуре.

Что, по‑видимому, написано и как это обычно трактуют

1 «Диета»
Соблюдать рекомендованную врачом диету. Часто при больном ЖКТ/печени — стол №5, но уточните у специалиста.

2 «Лечебная …» (первое слово начинается на «Леч…», далее характерная россыпь «е», «ч», «н», «е») Под ним отдельной строкой читается «сеанс(ы)» и подпись/аббревиатура
Похоже на направление на курс ЛФК или лечебного массажа. Врач, скорее всего, назначил курс из нескольких сеансов (обычно 8‑10).

3 «через 2 нед.» (первые буквы «чере…», стрелка → «нед»)
Прийти на повторный прием / контроль через две недели.

Почему именно так

В первой строке отчётливо видно слово «Диета».
Во второй строке читается характерная связка «леч...», а под ней — «сеее…с» → «сеанс». Так врачи обычно пишут «лечебные сеансы» / «курс сеансов».
В третьем пункте буквы «ч е р е з» и стрелка к «нед» (сокращ. от «недели») типичны для записи «через 2 нед.» — классический интервал до контрольного визита.

Что делать, если остались сомнения

Сфотографируйте записку крупнее и покажите врачу или медсестре — они быстро подтвердят/уточнят текст.

Позвоните в регистратуру отделения — у них обычно хранится расшифровка рекомендаций. На контрольном визите возьмите привычку просить врача печатать или продиктовывать назначения — так вы избежите подобных головоломок.

Надеюсь, это помогло! Если увидите что‑нибудь ещё в оригинале (цифры, сокращения) — сообщите, попробуем расшифровать точнее.

Полная цепочка рассуждений модели получилась на редкость длинной, поэтому привожу лишь отдельные фрагменты — те, которые особенно хорошо демонстрируют, как именно она старается работать с изображением.

Вердикт — модель не справилась (я тоже не смог).

Кейс 2. Место с картинки

В последние дни в сети активно обсуждают способность новой модели o3 определять место по фотографии с поразительной точностью. Проверим, как она справится с задачей найти офис Selectel на улице Цветочной, 23. В качестве ориентира используем снимок нашего здания из Yandex Street View и небольшую подсказку: это где-то в Петербурге.

Модель достаточно быстро нашла примерный адрес, промахнувшись всего на два дома по Цветочной улице. Стилистика, орфография и пунктуация нейросети сохранены.

Thought for 3m 4s

Это фасад офисно‑дата-центрового комплекса Selectel «Цветочная 2».

Адрес: Санкт-Петербург, Цветочная улица, д. 19  (территория бывшего завода «Позитив», квартал между ул. Коли Томчака и Заозерной).

Координаты точки съемки: 59,887  °N, 30,329  °E

Ближайшее метро: «Московские ворота» (10-12  минут пешком).

Если ориентироваться на карте, нужное здание стоит практически напротив дома номер 16; камера Street View направлена в сторону юго-запада, к Заставской улице.

Пока я искал подходящее фото для этого кейса, заметил забавную деталь: на панорамах улицы рядом с нашим офисом случайно попала моя коллега Лариса — инженер по развитию клиентов. И тут же в голову пришла новая идея, как можно испытать аналитические способности o3. Я сразу написал Ларисе и попросил разрешения использовать ее фото в статье — она, к счастью, не была против.

Лариса (куда-то идет).

Кейс 3. Какого роста Лариса

Сразу скажу, что рост Ларисы — 155 см.

Если мне достаточно было просто уточнить это в личных сообщениях, то ChatGPT придется изрядно попотеть и продемонстрировать чудеса владения своими инструментами, чтобы вывести заветное число. Задача сама по себе нетривиальная, поэтому я решил немного облегчить работу модели и отправил сразу две фотографии. Вот второе фото — и отправляем запрос!

Спустя 8,5 минут, получаем ответ:

Ответ: рост девушки в черной толстовке на ваших снимках ≈ 1 м  58 см  ±  5 см.

Погрешность ± 5 см берется из:

± 2 px неточности на люке (≈ 1 см),

± 10 px разброса при выборе верхней/нижней точки (≈ 4 см),

небольшого параллакса (она стоит на 20−30 см позади люка).

Если требуется бо́льшая точность (скажем, до сантиметра), то лучше иметь предмет контрольного размера прямо рядом с человеком — например, рулетку или рейку, поставленную вертикально. Тогда можно свести ошибку к ± 1 см.

Нейросеть определила рост Ларисы на фотографии, применив метод относительного масштабирования. Сначала она измерила высоту девушки в пикселях, а затем сравнила ее с размером стандартного объекта известного диаметра — канализационного люка (60 см), также измеренного в пикселях. Вычислив масштаб — количество метров на один пиксель, — система применила его к высоте девушки, получив приблизительное значение ее реального роста.

Цепочка рассуждений в этот раз вновь оказалась удивительно длинной и подробной, поэтому приведу лишь самый интересный ее фрагмент:

В попытке точно определить размеры люка на изображении, модель o3 использует Python. Однако из-за визуального шума скрипт выдает множество ложных срабатываний. В целом, в процессе изучения изображения применяются такие методы, как преобразование Хафа для поиска окружностей (Hough Circles), градиентный анализ, пороговая сегментация и морфологическая обработка. При этом фон, включающий брусчатку, здания, стрелки и тени, значительно затрудняет задачу.

Изначально ИИ пытается компенсировать визуальный шум вручную, но затем возвращается к автоматическому анализу, натыкается на те же помехи и опять начинает сначала.

Выводы

Новые LLM OpenAI действительно впечатляют — особенно своей способностью рассуждать, работать с визуальной информацией и использовать инструменты. Модель o3, в частности, показывает, как далеко продвинулись ИИ-системы в понимании сложных и нестандартных задач: раньше подобный уровень размышления было трудно даже представить.

В то же время, в каждом из кейсов заметно, что модель все еще делает ошибки, нуждается в дополнительных подсказках и временами работает «в лоб» — с перебором, перезапусками анализа, не всегда оптимально. Это не «магическая коробка», а скорее — умный и трудолюбивый помощник, который честно старается решить задачу всеми доступными средствами.

Впереди — еще немало кейсов, которые хочется попробовать. Но уже сейчас видно: последние модели OpenAI действительно задали новую планку.