Как стать автором
Обновить

Вышла OpenAI GPT 4.1 — новая главная модель для программирования

Время на прочтение3 мин
Количество просмотров17K

Что случилось?

Компания OpenAI представила новую линейку моделей GPT-4.1: GPT-4.1, GPT-4.1 mini и GPT-4.1 nano. Эти модели значительно превосходят предыдущие версии (GPT-4o и GPT-4o mini), особенно в программировании, следовании инструкциям и работе с большим контекстом (до 1 миллиона токенов). Обновление модели также включает актуализацию базы знаний до июня 2024 года.

Да, это тот самый загадочный Quasar, который случайно заметили на OpenRouter ещё неделю назад. А вот теперь карты вскрылись.

Основные характеристики и улучшения

Программирование:

  • GPT-4.1 показывает рекордный результат 54,6% на SWE-bench Verified, улучшив показатели GPT-4o на 21,4%.

  • Лучше работает с diff-форматами (изменения в коде), что существенно сокращает время и затраты.

  • Меньше посторонних правок в коде (снижение с 9% до 2%).

  • Веб-приложения, созданные с помощью GPT-4.1, более функциональны и эстетичны. В 80% случаев пользователи предпочли результаты GPT-4.1 предыдущей версии GPT-4o.

Меня впечатлило следующее заявление от Windsurf:

GPT‑4.1 набрал на 60% больше баллов, чем GPT‑4o во внутреннем бенчмарке Windsurf по программированию, что сильно коррелирует с тем, как часто изменения кода принимаются после первой генерации. Их пользователи отметили, что GPT 4.1 был на 30% эффективнее в вызове инструментов и примерно на 50% менее склонен повторять ненужные правки или читать код слишком узкими, пошаговыми действиями.

Следование инструкциям:

  • GPT-4.1 значительно лучше следует сложным и многошаговым инструкциям, особенно на трудных заданиях.

  • Улучшена обработка негативных промптов, форматирование ответов и соблюдение точных требований (по формату или контенту).

  • На внутреннем тесте OpenAI (сложные инструкции) GPT-4.1 набрал 49% против 29% у GPT-4o.

Большой контекст:

  • Поддержка контекста до 1 миллиона токенов (ранее было до 128 тысяч).

  • Модели эффективно извлекают информацию («needle in a haystack») независимо от позиции в контексте.

  • Улучшенная способность к многошаговому логическому анализу и извлечению данных из множества документов.

  • В новом тесте OpenAI-MRCR (многоходовое извлечение информации) GPT-4.1 значительно превосходит GPT-4o.

Ну вы только посмотрите на это. Абсолютный результат.
Ну вы только посмотрите на это. Абсолютный результат.

Мультимодальные задачи и обработка изображений:

  • GPT-4.1 показывает лучшие результаты на тестах MMMU (обработка диаграмм и карт) и MathVista (визуальные математические задачи).

  • Улучшена работа с длинными видео (72% на тесте Video-MME против 65% у GPT-4o).

Модели GPT-4.1 mini и nano

  • GPT-4.1 mini: пониженная задержка почти вдвое и на 83% дешевле, с сохранением высокого качества.

  • GPT-4.1 nano: самая быстрая и дешевая модель, подходит для задач классификации и автодополнения (aka "автокомплит в редакторах кода").

Отзывы партнеров

  • Windsurf: GPT-4.1 на 60% эффективнее GPT-4o в решении внутренних задач кодирования, меньше повторяющихся правок.

  • Qodo: GPT-4.1 лучше проводит код-ревью (55% успешных рекомендаций).

  • Blue J: GPT-4.1 на 53% точнее решает сложные налоговые сценарии.

  • Hex: GPT-4.1 улучшил точность SQL-запросов вдвое, что снизило количество ручной отладки.

  • Thomson Reuters: модель повысила точность анализа сложных юридических документов на 17%.

  • Carlyle: GPT-4.1 на 50% эффективнее извлекает финансовые данные из объемных документов.

Производительность и стоимость

  • Время отклика существенно лучше, особенно у моделей mini и nano.

  • GPT-4.1 дешевле на 26% по сравнению с GPT-4o.

  • GPT-4.1 nano – самая экономичная модель (стоимость $0.10 за 1 млн инпут токенов).

  • Значительное увеличение скидки за кэшированые токены (75%), дополнительная скидка на Batch API (50%).

Подгоны от IDE

Cursor и Windsurf объявили, что в течение недели использование 4.1 будет бесплатным в этих редакторах. Правда, пока что апдейта от Cursor я не увидел - модель пока что недоступна в моём редакторе. Но, надеюсь, в течение пары часов поправят.


P.S. Я очень много пишу про разработку c ИИ у себя в телеграм-канале. Заставляю ИИ писать хороший код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ (и как раз на днях потестирую этот GPT 4.1). А ещё недавно стал выкладывать подобные обзоры на ютуб. Велком!

Теги:
Хабы:
+2
Комментарии18

Другие новости

Работа

Data Scientist
46 вакансий

Ближайшие события