levashove 14 мая в 13:35

Тестируем особенности искусственного интеллекта: o3, GPT-4.1 и o4-mini

7 мин

3.5K

Блог компании VK TechИскусственный интеллектМашинное обучение*

Перевод

Автор оригинала: Vivian Meng, Katie Parrott

Искусственный интеллект в последнее время постоянно радует нас разными новостями и новыми моделями. Команда VK Tech перевела статью со сравнением трех новых моделей — это поможет понять, какую же использовать для каких задач и чем модели по-настоящему отличаются друг от друга. Дальше передаем слово авторам оригинальной статьи.

o3: самая мощная рассуждающая модель OpenAI

o3 — первая модель, которой директор Every Дан Шиппер так восхищался со времен GPT‑4 в 2023 году. Она не просто использует инструменты, как GPT-4o, или видит картинки — она осмысливает увиденное.

Основные преимущества

Использование инструментов. o3 знает, как работать с инструментами, сочетать их друг с другом и жонглировать ими. Допустим, вы загрузили график продаж за месяц. Модель может извлечь данные с помощью OCR, написать на Python расчет динамики от года к году и найти отраслевые бенчмарки, чтобы добавить в результаты контекст, одним махом. Ей по силам вызвать до 600 инструментов за один ответ, по ходу дела исправить недостатки и переориентироваться, если что-то пойдет не так. Это самоуправляемый аналитик со швейцарским армейским ножом, и он точно знает, какое лезвие для чего.

Рассуждение по визуальным данным. Она изучает реальный контекст изображений. Другие модели говорят: «Это картина женщины». А o3 разглядывает изображение крупным планом, считывает подпись художника, ищет музей, в котором выставлена картина, и выдает вам историю художественного направления, к которому она относится.

GPT-4.1: максимум точности без самовольных настроений

Пока что модель 4.1 доступна только разработчикам через API. Она предназначена для выполнения подробных инструкций с неотвратимой точностью. Она не столь мечтательная, как ее предшественники, например 4.5, зато она более структурированная, надежная и системная. Эдакая рабочая лошадка OpenAI для программистских задач, а не творческих изысканий.

Основные преимущества:

Выполняет сложные инструкции. GPT-4.1 справляется с указаниями как бывалый штурман. Допустим, вы пишете код для кулинарного приложения. За один промпт можно попросить ее отформатировать ответ в Markdown, избегать определенных тем, выдать последовательность приготовления блюд в указанном порядке и всегда показывать ключевые метрики, например содержание натрия. Предыдущие модели периодические спотыкались или пропускали этапы. Но 4.1 строго придерживается плана местности — даже если ей предстоит длинная извилистая дорога с кочками и оврагами.

Она не сбивается с пути. В предыдущих моделях память поддерживала 128 000 токенов. В этой память увеличилась до 1 миллиона токенов, так что можно один раз настроить тон или структуру и эти настройки будут сохраняться на протяжении нескольких ответов. И не нужно каждый раз начинать с нуля.

Акцент на структуре. GPT-4.1 — как друг, вместе с которым прикольно путешествовать и смотреть окрестности, но только если у вас есть план. Выдайте ему понятный путеводитель, и он пройдет по маршруту максимально точно. Но если промпт будет ни о чем, нечто вроде «А можешь сделать так, чтобы это кулинарное приложение по своей ауре напоминало подпольный бар?» — ваш приятель развернется и поедет домой. Чем точнее карта, тем лучше поездка.

o4-mini: маленькая, проницательная и на удивление способная

Модель o4-mini — пока что последняя в o-series, линейке рассуждающих моделей OpenAI, которые сначала долго думают, а потом отвечают. Ее доработали и с количественной, и с качественной точки зрения. У o3 лимит сообщений для пользователя составлял 50 сообщений в неделю, у o4-mini — 150 сообщений в день. При этом ее производительность практически соответствует уровню o3, особенно в области математики, программирования и интенсивной работы с изображениями. Работает она быстро и в разы дешевле. o3 — самая мощная рассуждающая модель OpenAI. А o4-mini — ваш походный вариант, когда нужно использовать большинство плюшек o3, но в девять раз дешевле. Это совсем не мини-разница.

Основные преимущества

Очень мощная для своих размеров. Нужно проанализировать тонны расшифровок или сделать конспект захламленных таблиц с материалами исследований? o4-mini влегкую справляется с запросами на обработку больших объемов информации: отфильтрует самое важное, напишет на языке структурированных запросов, найдет данные и нанесет результаты на интерактивный график. Там, где o3 истратит с десяток этапов рассуждения — и выставит соответствующий счет в потраченных токенах, o4-mini берется за дело и выдает четкий, годный ответ, основанный на адекватных рассуждениях.

Инструменты те же, результаты лучше. o4-mini поддерживает полный набор инструментов модели o3, включая Python, поиск в интернете, анализ и генерацию изображений и еще много чего. Она отлично справляется с задачами вроде подготовки еженедельной аналитической сводки: найти CSV, запустить Python, чтобы очистить и упорядочить данные, найти в интернете обобщенную отраслевую информацию для полноты картины и подготовить отчет в Markdown. Все это она делает одним махом и тратит гораздо меньше ресурсов по сравнению с o3.

Что все мы в Every думаем о…

o3

o3 думает, как промпт-инженер. «o3 — отличный ИИ-помощник. Похоже, она хорошо представляет себе, как работают LLM и разные инструменты и приемы, которые сегодня в ходу. Другие модели обычно применяют для ответов традиционные приемы обработки естественного языка — o3 отвечает приемами, которые вы используете для работы с LLM», — Дэнни Азиз, генеральный менеджер Spiral.

o3 — пока что лучшая модель-учитель. «o3 написала для меня просто изумительные руководства по Rails — это однозначно лучшая модель-учитель. Я впервые почувствовал, что модель на самом деле понимает мой уровень понимания и может написать статью конкретно для меня», — Нитиш Агарвал, разработчик в Cora.

4.1

Только дела, никакого «вайба». «Вот почему она мне так нравится. Это модель для разработчиков, без понтов. Как GPT-4, только лучше», — Киран Клаассен, генеральный менеджер Cora.

Точные данные на входе — достойный результат на выходе. «4.1 качественно работает, когда получает по-настоящему конкретные инструкции. Ей не очень хорошо даются допущения, зато она отлично пишет код. Для одних подходит, для других — не очень», — Алекс Даффи, руководитель отдела консалтинга и штатный обозреватель.

Структура получше, элегантность похуже. «По сравнению с другими моделями, которые я пробовал, 4.1 OpenAI — большой шаг вперед. От предыдущих моделей веяло ленцой, как будто им не хотелось писать код. Теперь все работает. Но результат все еще не идеальный: в плане удобочитаемости и структуры качество ниже, чем у Claude», — Андрей Галко, разработчик.

Наконец-то модель 4.1 может потеснить Sonnet на пьедестале взаимодействия с пользователями. «Обожаю 4.1 за UI-задачи. Вполне возможно, моей дружбе с Sonnet 3.5 настал конец. За один раз сделал UI с помощью 4.1», — Яш Пуджари, генеральный менеджер Sparkle.

Но в Cursor Gemini все еще в лидерах. «По мне, в Cursor Gemini 2.5 Pro гораздо лучше 4.1. Правда, в Windsurf я ее еще не пробовал», — Дэнни Азиз.

… o4-mini

o4-mini — это виртуоз обработки визуальных данных. «В Windsurf o4-mini-high приходит на смену 3.7 Sonnet для решения thinking tasks. Она точнее генерирует код, и, хотя работает помедленнее, в конечном счете она выдает результаты быстрее, потому что успевает сделать больше за один раз», — Нитиш Агарвал.

«Я выяснил, что o4-mini хорошо справляется с преобразованием в текст изображения судоку. Ни одна другая модель с этим не справилась», — Дэн.

Что все остальные думают о…

o3

o3 OpenAI: AGI подкрался незаметно? Экономист Тайлер Коувен спросил прямо: «Это AGI?» Его выводы: «Если o3 не AGI, то чего вообще ждать?» В то же время он не ожидает какого-то перевозбуждения на рынках в ответ на это заявление. «Мы еще очень нескоро научимся правильно его использовать».

o3 правильно ловит корпоративные нюансы. Как говорит президент Box Аарон Леви, o3 великолепно справилась с многоэтапной задачей финансового моделирования, для решения которой требовались математика, логика и понимание нюансов бизнес-контекста — еще год назад это не было по силам ни одной модели.

4.1

Дело не только в решении задач, но и во взаимодействии с людьми. Рио Лу, глава дизайнерского подразделения Cursor, сравнивает LLM с сотрудниками: Gemini — это старший разработчик, которого надо время от времени поторапливать, Claude 3.7 — ботаник-тугодум, а GPT-4.1/o3 «начинает понимать, что суть программирования не в бенчмарках».

O3 поднимает планку Agentic Reasoning. Президент Scale AI Александр Ванг назвал o3 значительным шагом вперед в развитии отрасли, подчеркнув, что беспроблемное самоуправляемое использование инструментов — это большой прорыв.

Рассуждает меньше, выполняет инструкции лучше, пишет код быстрее. По мнению Клива Чена, технического специалиста OpenAI, 4.1 пишет код гораздо быстрее, чем o3-mini, потому что она меньше рассуждает: «4.1 практически заменила мне o3-mini во всех рабочих процессах (Cursor и т. п.)».

o4-mini

o4-mini превосходит 4.1 по долгосрочной памяти. Даниэль Чалеф, основатель компании Zep, поставщика памяти для ИИ-агентов, протестировал обе модели с помощью бенчмарка LongMemEval, предназначенного для оценки долгосрочной памяти чат-ассистентов. Он обнаружил, что по точности рассуждений o4-mini вышла на первые позиции, а GPT-4.1 спотыкалась, несмотря на массивное контекстное окно: «Не все сводится к размеру необработанного контекста».

Она превосходит o3 в Vision. Инсайдер из OpenAI говорит, что как модель технического зрения o4-mini намного лучше, чем o3. Это заявление совпадает с результатами судоку-теста, который проводил Дэн: «Я работаю в OpenAI. На самом деле как модель технического зрения o4-mini значительно превосходит o3, несмотря на бенчмарки».

Она очень быстро справляется со сложными математическими вычислениями. Скотт Свингл, основатель компании-разработчика Abante AI, а еще ранее Deepmind, задал o4-mini одну из новых задач из проекта Эйлера (сложные задачи по математике и компьютерному программированию, которые решают люди со всего мира). Она справилась с задачей за 2 минуты и 55 секунд. А каков рекорд человека? 5 минут и 15 секунд: «Я поражен. Я знал, что рано или поздно этот день настанет, но все же. Я время от времени решал эти задачи и иногда даже входил в десятку лидеров, так что я знаю, насколько это трудно».

o3 рассуждает тяжеловесно, а o4-mini — быстро и однозначно. Анонимный разработчик задал o4-mini и o3 задачу по математике. И выяснил, что o4-mini выдает более удобочитаемое и элегантное решение, а o3 — более сложное решение с таблицами. По-видимому, она вообще неравнодушна к таблицам.

Как новые инструменты смотрятся на фоне конкурентов

4.1 vs Claude 3.7 Sonnet

По результатам нашего тестирования, Claude все еще впереди по элегантности и структуре кода, особенно когда речь идет о согласованности стиля и UI. Но у нас был пробел с моделями для выполнения инструкций, и 4.1 заполнила эту лакуну. Она отлично справляется с этой задачей, особенно если ей дать конкретный промпт адекватного объема.

o4-mini vs GPT-3.5

Исходя из того, что мы успели увидеть, o4-mini становится новой «бюджетной моделью» на все случаи жизни для разработчиков, которым нужна скорость, надежность и обработка видео за небольшую плату. Модель GPT-3.5, которую выпустили в ноябре 2022 года, уже начинает казаться технологией далекого прошлого.

Подписывайтесь на канал Данные на стероидах. Дайджесты мира Data и ML, а также практики и подходы для извлечения максимальной пользы из работы с данными.

Хабы:

Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку

Тестируем особенности искусственного интеллекта: o3, GPT-4.1 и o4-mini

o3: самая мощная рассуждающая модель OpenAI

Основные преимущества

GPT-4.1: максимум точности без самовольных настроений

Основные преимущества:

o4-mini: маленькая, проницательная и на удивление способная

Основные преимущества

Что все мы в Every думаем о…

o3

4.1

… o4-mini

Что все остальные думают о…

o3

4.1

o4-mini

Как новые инструменты смотрятся на фоне конкурентов

4.1 vs Claude 3.7 Sonnet

o4-mini vs GPT-3.5

Публикации

Информация