OpenAI представила GPT-4.1 — улучшенный процесс программирования, следование инструкциям и длинное контекстное окно / Хабр

OpenAI представила GPT-4.1 - улучшенный процесс программирования, следование инструкциям и более длинное контекстное окно

Компания OpenAI выпустила свою новейшую ИИ-модель GPT-4.1, а также два более компактных варианта: GPT-4.1 Mini и GPT-4.1 Nano. В новом поколении моделей GPT значительно улучшены возможности программирования, следование инструкциям и поддержка до 1 миллиона токенов (примерно 750 000 слов).

У всех трех моделей знания ограничены июнем 2024 года.

Но почему именно три модели?

Решение о создании трех моделей было обусловлено необходимостью удовлетворить различные требования разработчиков по различным параметрам, таким как интеллект, скорость и стоимость.

GPT 4.1 — самая мощная из трех моделей. Она превосходна в программировании, выполнении сложных инструкций и имеет большое контекстное окно. Она превосходит GPT4o почти по всем параметрам и даже соответствует или превосходит GPT 4.5 в нескольких ключевых областях.
GPT 4.1 Mini. Эту модель рекомендуется использовать, если вам нужно что‑то более быстрое для потенциально более простых задач. В ней соблюден баланс между производительностью, скоростью и стоимостью. Она превосходит свои возможности в области мультимодальных рассуждений и интеллекта, потенциально являясь лучшей моделью для мультимодальной обработки или обработки изображений.
GPT 4.1 Nano — самая маленькая, самая быстрая и самая дешевая модель от OpenAI. Она предназначена для работы с большим количеством приложений, таких как автозаполнение, классификация и извлечение информации из длинных документов. Несмотря на то, что она быстрее и дешевле, она по‑прежнему обрабатывает до миллиона токенов контекста.

Посмотрите на кривую задержки ниже, которая показывает производительность моделей GPT-4.1 по сравнению с моделями GPT-4o.

Это говорит о лучшем компромиссе между интеллектом и скоростью по сравнению с GPT-4o. В другом анализе, проведенном сайтом Artificial Analysis, качество GPT-4.1 выше среднего: оценка MMLU составляет 0,806, а индексинтеллектуальности по всем оценкам — 52.

По скорости GPT-4.1 превосходит средние показатели: скорость вывода составляет 133,4 токена в секунду.

Улучшенные возможности программирования

GPT-4.1 значительно лучше GPT-4o справляется с различными задачами по программированию, включая решение задач по программированию с помощью агентов, разработку фронтенда и внесение меньшего количества лишних правок.

Согласно контрольным показателям OpenAI Software Engineering, GPT-4.1 выполняет 54,6 % задач по сравнению с 33,2 % для GPT-4o (2024-11-20).

Вот пример, показывающий, что GPT-4.1 значительно превосходит GPT-4o в написании кода для фронтенда и способен создавать более функциональные и эстетически привлекательные веб-приложения.

Промпт: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user’s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

Приложение выглядит на удивление хорошо и кажется более качественным, чем то, которое обычно генерирует GPT-4o.

Еще одно значительное улучшение — сокращение количества посторонних правок в коде. OpenAI сообщает, что количество ненужных изменений снизилось с 9% в GPT-4o до всего лишь 2% в GPT-4.1. Меньше мусора в коде означает более быструю итерацию и меньше головной боли.

Дополнительные возможности GPT-4.1

Помимо улучшенных возможностей программирования и производительности, GPT-4.1 включает в себя и другие ключевые обновления:

Выполнение инструкций. GPT-4.1 показывает значительные улучшения в выполнении сложных инструкций. OpenAI утверждает, что она работает намного лучше, чем GPT-4o, особенно в сложных задачах и при выполнении сложных промптов. Кроме того, она демонстрирует хорошие результаты во внешних тестах, таких как sales multi‑challenge eval.
Длинный контекст. У всех трех моделей — контекстное окно объемом в 1 миллион токенов, что является большим скачком по сравнению с предыдущей моделью, у которой объем всего в 128 тысяч. Тесты OpenAI показывают, что GPT-4.1 хорошо извлекает информацию в длинных контекстах и превосходит GPT-4o. Однако при полном использовании 1 млн токенов точность падает. Это заставляет меня усомниться в том, что большой объем контекстного окна действительно полезен на практике.
Модели GPT-4.1 являются мультимодальными, при этом GPT-4.1 Mini, возможно, является лучшей для задач, связанных с изображениями и видео. У GPT-4.1 высокие результаты в бенчмарке Video MME. Пока нет официальной информации о генерации изображений через API, но я надеюсь, что она будет добавлена в ближайшее время.

Название «GPT-4.1» сбивает с толку

Давайте на секунду поговорим о названии. Зачем давать модели название GPT-4.1 после выпуска GPT-4.5 в начале этого года?

Тот факт, что более низкий номер версии (4.1) используется после более высокого (4.5), делает буквально невозможным определение наиболее продвинутых моделей по их названиям.

В OpenAI объяснили, что название 4.1 отражает всестороннее улучшение по сравнению с предыдущим поколением, включая GPT-4o и даже GPT-4.5, в нескольких важных областях. Таким образом, номер версии — это не последовательность, а скорее классификация.

Они также упомянули, что GPT-4.5 — это «предварительная исследовательская версия», что говорит о том, что она не будет существовать долго. На самом деле, OpenAI планирует вскоре отказаться от API для GPT-4.5 Preview. С их точки зрения, GPT-4.1 предлагает лучшую производительность, меньшую стоимость и меньшую задержку, поэтому нет никаких реальных причин поддерживать версию 4.5 в активном состоянии.

Это говорит о том, что, несмотря на более высокий номер версии, GPT-4.5, возможно, не оправдала их ожиданий в плане эффективности, производительности или более широкой применимости по сравнению с новым семейством 4.1. Также отметим, что GPT-4.5 была «Research preview», что подразумевает, что она не должна была стать долгосрочным продуктом.

Также обратите внимание на то, что в системе названий можно различать модели, основанные на рассуждениях (начинающиеся с «o», например o1, o3), и модели, не основанные на рассуждениях (начинающиеся с цифры, например 4.1).

Тем не менее, назначение названий — это беспорядок. Я понимаю, что они пытаются сделать, но это можно было бы сделать лучше.

Как пользоваться GPT-4.1

Как я уже сказал, новые модели недоступны в ChatGPT.

В ChatGPT многие из улучшений в области следования инструкциям, программирования и интеллекта были постепенно внедрены в последней версии (открывается в новом окне) GPT-4o, и мы продолжим внедрять их и в последующих релизах. — OpenAI

Чтобы попробовать модели GPT-4.1, зайдите на игровую площадку OpenAI и в выпадающем списке «Модель» установите предпочитаемую модель.

Если вы из России и у вас нет подписки на ChatGPT, могу посоветовать этого бота (на момент публикации статьи это был единственный бот, в котором есть эти модели).

Кроме того, OpenAI выпустила GPT 4.1 Prompting Guide, в котором содержатся ценные советы, основанные на внутреннем тестировании. Если вы хотите максимально использовать возможности модели, рекомендую его прочитать.

OpenAI представила GPT-4.1 - улучшенный процесс прог��аммирования, следование инструкциям и более длинное контекстное окно — OpenAI представила GPT-4.1 - улучшенный процесс программирования, следование инструкциям и более длинное контекстное окно

Если вы собираетесь использовать GPT-4.1 в своих проектах по разработке, обновите Cursor до последней версии и на странице настроек Cursor включите модель gpt-4.1.

Теперь в режиме агента новая модель должна быть видна в списке моделей.

Если вы используете Windsurf, обновите десктопное приложение до последней версии, и вы заметите, что GPT-4.1 сразу же становится доступной в списке моделей.

Что еще лучше, так это то, что новую модель можно использовать бесплатно в течение ограниченного времени.

По данным OpenAI, GPT-4.1 на 60 % превосходит GPT-4o по внутреннему бенчмарку программирования Windsurf, который сильно коррелирует с тем, как часто изменения кода принимаются при первом просмотре.

Другие примеры, показанные во время прямой трансляции, вы можете увидеть ниже:

Давайте поговорим о ценах

Вот разбивка стоимости за миллион токенов:

GPT-4.1 на 26% дешевле GPT-4o для медианных запросов, а GPT-4.1 nano — самая дешевая и самая быстрая модель OpenAI. Для запросов, которые неоднократно передают один и тот же контекст, компания увеличивает скидку на кэширование промпта до 75 % (с 50 % ранее) для этих новых моделей.

Система версий OpenAI по‑прежнему не имеет какого‑либо логического обоснования. Называть этот релиз GPT-4.1 после GPT-4.5 — в лучшем случае путаница. Если не принимать это во внимание, то прирост производительности в области программирования, выполнения инструкций и длины контекста впечатляет.

Также радостно видеть столько положительных отзывов от сообщества разработчиков. Это очень важно, если вы пытаетесь создавать инструменты или автоматизировать рабочие процессы.

Я заметил, что в заявлениях OpenAI есть кое‑что странное. Они в основном сравнивают GPT-4.1 со своими старыми моделями, вместо того чтобы показать, как она выглядит в сравнении с Claude или Gemini. Почему бы не сравнить их между собой? Это заставляет задуматься о том, есть ли области, в которых GPT-4.1 может оказаться не на высоте. Например, такие бенчмарки, как Aider's polyglot leaderboard, говорят о том, что Claude все еще имеет преимущество в таких задачах, как SWE‑bench.

Тем не менее, GPT-4.1 — это долгожданный релиз. Если вы уже попробовали ее, напишите, что вы думаете — мне интересно узнать, как она работает в различных рабочих процессах.

Друзья, буду рад, если вы подпишетесь на мой телеграм‑канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений — я стараюсь делиться только полезной информацией.