Вышла OpenAI GPT 4.1 — новая главная модель для программирования / Хабр

Что случилось?

Компания OpenAI представила новую линейку моделей GPT-4.1: GPT-4.1, GPT-4.1 mini и GPT-4.1 nano. Эти модели значительно превосходят предыдущие версии (GPT-4o и GPT-4o mini), особенно в программировании, следовании инструкциям и работе с большим контекстом (до 1 миллиона токенов). Обновление модели также включает актуализацию базы знаний до июня 2024 года.

Да, это тот самый загадочный Quasar, который случайно заметили на OpenRouter ещё неделю назад. А вот теперь карты вскрылись.

Основные характеристики и улучшения

Программирование:

GPT-4.1 показывает рекордный результат 54,6% на SWE-bench Verified, улучшив показатели GPT-4o на 21,4%.
Лучше работает с diff-форматами (изменения в коде), что существенно сокращает время и затраты.
Меньше посторонних правок в коде (снижение с 9% до 2%).
Веб-приложения, созданные с помощью GPT-4.1, более функциональны и эстетичны. В 80% случаев пользователи предпочли результаты GPT-4.1 предыдущей версии GPT-4o.

Меня впечатлило следующее заявление от Windsurf:

GPT‑4.1 набрал на 60% больше баллов, чем GPT‑4o во внутреннем бенчмарке Windsurf по программированию, что сильно коррелирует с тем, как часто изменения кода принимаются после первой генерации. Их пользователи отметили, что GPT 4.1 был на 30% эффективнее в вызове инструментов и примерно на 50% менее склонен повторять ненужные правки или читать код слишком узкими, пошаговыми действиями.

Следование инструкциям:

GPT-4.1 значительно лучше следует сложным и многошаговым инструкциям, особенно на трудных заданиях.
Улучшена обработка негативных промптов, форматирование ответов и соблюдение точных требований (по формату или контенту).
На внутреннем тесте OpenAI (сложные инструкции) GPT-4.1 набрал 49% против 29% у GPT-4o.

Большой контекст:

Поддержка контекста до 1 миллиона токенов (ранее было до 128 тысяч).
Модели эффективно извлекают информацию («needle in a haystack») независимо от позиции в контексте.
Улучшенная способность к многошаговому логическому анализу и извлечению данных из множества документов.
В новом тесте OpenAI-MRCR (многоходовое извлечение информации) GPT-4.1 значительно превосходит GPT-4o.

Ну вы только посмотрите на это. Абсолютный результат.

Мультимодальные задачи и обработка изображений:

GPT-4.1 показывает лучшие результаты на тестах MMMU (обработка диаграмм и карт) и MathVista (визуальные математические задачи).
Улучшена работа с длинными видео (72% на тесте Video-MME против 65% у GPT-4o).

Модели GPT-4.1 mini и nano

GPT-4.1 mini: пониженная задержка почти вдвое и на 83% дешевле, с сохранением высокого качества.
GPT-4.1 nano: самая быстрая и дешевая модель, подходит для задач классификации и автодополнения (aka "автокомплит в редакторах кода").

Отзывы партнеров

Windsurf: GPT-4.1 на 60% эффективнее GPT-4o в решении внутренних задач кодирования, меньше повторяющихся правок.
Qodo: GPT-4.1 лучше проводит код-ревью (55% успешных рекомендаций).
Blue J: GPT-4.1 на 53% точнее решает сложные налоговые сценарии.
Hex: GPT-4.1 улучшил точность SQL-запросов вдвое, что снизило количество ручной отладки.
Thomson Reuters: модель повысила точность анализа сложных юридических документов на 17%.
Carlyle: GPT-4.1 на 50% эффективнее извлекает финансовые данные из объемных документов.

Производительность и стоимость

Время отклика существенно лучше, особенно у моделей mini и nano.
GPT-4.1 дешевле на 26% по сравнению с GPT-4o.
GPT-4.1 nano – самая экономичная модель (стоимость $0.10 за 1 млн инпут токенов).
Значительное увеличение скидки за кэшированые токены (75%), дополнительная скидка на Batch API (50%).

Подгоны от IDE

Cursor и Windsurf объявили, что в течение недели использование 4.1 будет бесплатным в этих редакторах. Правда, пока что апдейта от Cursor я не увидел - модель пока что недоступна в моём редакторе. Но, надеюсь, в течение пары часов поправят.

P.S. Я очень много пишу про разработку c ИИ у себя в телеграм-канале. Заставляю ИИ писать хороший код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ (и как раз на днях потестирую этот GPT 4.1). А ещё недавно стал выкладывать подобные обзоры на ютуб. Велком!