ElKornacio 14 апр в 22:24

Вышла OpenAI GPT 4.1 — новая главная модель для программирования

3 мин

19K

Машинное обучение*Искусственный интеллект

Комментарии 18

nobilix 14 апр в 22:33

Спасибо за обзор! Интересно сравнение с Claude в кодинге

ainu 14 апр в 23:36

И с gemini

Kasyan666 15 апр в 01:26

А мне, вот, интересно сравнение с ChatGPT o1 Pro.

SlavikF 15 апр в 02:08

Я видел комментарий, что у OpenAI модель 4.1 тренировалась на данных середины 2024.

А вот Gemini 2.5 - начало 2025.

Это может быть критично для проектов, в которых новые версии выходят чуть ли не каждую неделю.

benone 15 апр в 09:43

С миллионным контекстом документацию можно и приложить

positroid 15 апр в 11:56

Субъективно за несколько часов в Cursor:

хорошо слушается инструкций;
активно использует CoT - просит уточнений и согласования решения перед переходом к действиям (Sonnet часто приходится ловить в середине, когда он начинает лепить откровенную дичь);
хорошо держит контекст.

По ощущениям модель сопоставима либо лучше Sonnet 3.7 (даже thinking), на сколько - объективно не могу сказать. Но точно на голову выше 4o, он в агентской схеме был очень ленивым и часто просил все сделать за него.

IgorAlentyev 14 апр в 22:43

Очень жду независимых бенчмарков! Давно не выходило альтернативных моделей для кодинга)

aborouhin 14 апр в 22:56

В Cursor появилась в рамках тарифа (в отличие от Claude Sonnet 3.7 Max и Gemini 2.5 Pro Max, за которые надо дополнительно доплачивать за каждый запрос). Проверим. Не думаю, что она и в перспективе станет платной, если она дешевле 4o, а 4o включена в тариф.

P.S. Но вот размер контекста для gpt-4.1 у Cursor в справке указан всего 128k токенов, а отнюдь не миллион...

aart3 14 апр в 23:54

Раньше тарифы обсуждали домохозяйки, теперь программисты обсуждают тарифы, а домохозяйки могут кодить.

Tassdesu 15 апр в 13:00

Claude Sonnet 3.7 Max и Gemini 2.5 Pro Max входят в Pro тариф Cursor, просто расход у них выше, так как каждый toolcall считается, как отдельный request из вашего месячного лимита.

P.S. Возможно Cursor потом сделают gpt-4.1-max

НЛО прилетело и опубликовало эту надпись здесь

lil_master 15 апр в 02:52

Поделитесь, для каких задач в программировании и на каких языках Claude sonnet 3.5 или 3.7 лучше чем gpt o3-mini-high?

wmlab 15 апр в 04:01

.NET/Terraform HCL/PowerShell/AWS SDK - Claude 3.7 намного лучше чем ChatGPT o3-high-mini. Claude 3.7 почти сразу предлагает рабочее решение (если оно вообще есть), требующее лишь небольшого допиливания. ChatGPT o3-high-mini на более-менее сложных заданиях уносит "не в ту степь". Возможно, Claude 3.7 тренировали на реальных репах GitHub, а ChatGPT - сделали упор на доступных гайдах.

Silvestr99 15 апр в 08:13

Да во всех. Если что то сложнее пайтона или sql

Написать на Delphi или C# код для Парсинга и отработки DEX площадки ?

Или сложную функцию ? В Клауде у вас будет 2-3 правки а в got около 40 правок за час

Got отличный в общих вещах, а Клауд в разработке. Да даже попросите сделать тех задание под свой проект у gpt и Клауда и сравните. Я держу оба ( плачу за оба ) got как поисковик или решатель любых запросов

А Claude для работы составления сложных тех заданий и пр

Друг вообще отказался от gpt и ратотает только с Клаудом

Но у Клауда есть одна проблема - быстро заканчиваются бесплатные токены

milkyway044 15 апр в 08:46

На фронтах и в мобильной разработке Claude 3.7 — топ.

positroid 15 апр в 12:00

В агентской схеме работы (cursor/cline/windsurf/etc) раньше модели от OpenAi были отвратительны и ленивы, потому что отказывались сами писать код и вызывать инструменты для работы с файлами.

Сам код в чате o3-mini-high мог написать и лучше чем Sonnet (PHP, Python, C), но не в режиме агента. У 4.1 с этим никаких проблем нет, по качеству и особенно скорости работы он субъективно лучше 3.7 thinking (насколько можно судить по нескольким часам кодинга в cursor).

k-morozov 15 апр в 12:26

Очередные цифры в вакууме, которые ничего не значат и все с ними носятся. Ну стала модель на XXX % лучше. По факту есть примеры, какие задачи она научилась решать?

Условно предыдущие модели не могут решить такую-то задачу и выдают такой-то бред, а вот эта модель научилась ее решать и выдает такой ответ.

Интересно, вообще есть подобные обзоры.

Tassdesu 15 апр в 12:55

Классный репост пресс-релиза. А независимых бенчмарков нет или просто не нужно? Классно, конечно, что она лучше своих предшественников, но обходит ли она конкурентов?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий