Комментарии 18
Спасибо за обзор! Интересно сравнение с Claude в кодинге
И с gemini
А мне, вот, интересно сравнение с ChatGPT o1 Pro.
Я видел комментарий, что у OpenAI модель 4.1 тренировалась на данных середины 2024.
А вот Gemini 2.5 - начало 2025.
Это может быть критично для проектов, в которых новые версии выходят чуть ли не каждую неделю.
Субъективно за несколько часов в Cursor:
хорошо слушается инструкций;
активно использует CoT - просит уточнений и согласования решения перед переходом к действиям (Sonnet часто приходится ловить в середине, когда он начинает лепить откровенную дичь);
хорошо держит контекст.
По ощущениям модель сопоставима либо лучше Sonnet 3.7 (даже thinking), на сколько - объективно не могу сказать. Но точно на голову выше 4o, он в агентской схеме был очень ленивым и часто просил все сделать за него.
Очень жду независимых бенчмарков! Давно не выходило альтернативных моделей для кодинга)
В Cursor появилась в рамках тарифа (в отличие от Claude Sonnet 3.7 Max и Gemini 2.5 Pro Max, за которые надо дополнительно доплачивать за каждый запрос). Проверим. Не думаю, что она и в перспективе станет платной, если она дешевле 4o, а 4o включена в тариф.
P.S. Но вот размер контекста для gpt-4.1 у Cursor в справке указан всего 128k токенов, а отнюдь не миллион...
Раньше тарифы обсуждали домохозяйки, теперь программисты обсуждают тарифы, а домохозяйки могут кодить.
Claude Sonnet 3.7 Max и Gemini 2.5 Pro Max входят в Pro тариф Cursor, просто расход у них выше, так как каждый toolcall считается, как отдельный request из вашего месячного лимита.
P.S. Возможно Cursor потом сделают gpt-4.1-max
GPT 4.1 — новая главная модель для программирования
Ух ты, новая главная модель для программирования почти догнала sonnet 3.5 в бенчмарках которые они сами же и приводят, волшебно.
Поделитесь, для каких задач в программировании и на каких языках Claude sonnet 3.5 или 3.7 лучше чем gpt o3-mini-high?
.NET/Terraform HCL/PowerShell/AWS SDK - Claude 3.7 намного лучше чем ChatGPT o3-high-mini. Claude 3.7 почти сразу предлагает рабочее решение (если оно вообще есть), требующее лишь небольшого допиливания. ChatGPT o3-high-mini на более-менее сложных заданиях уносит "не в ту степь". Возможно, Claude 3.7 тренировали на реальных репах GitHub, а ChatGPT - сделали упор на доступных гайдах.
Да во всех. Если что то сложнее пайтона или sql
Написать на Delphi или C# код для Парсинга и отработки DEX площадки ?
Или сложную функцию ? В Клауде у вас будет 2-3 правки а в got около 40 правок за час
Got отличный в общих вещах, а Клауд в разработке. Да даже попросите сделать тех задание под свой проект у gpt и Клауда и сравните. Я держу оба ( плачу за оба ) got как поисковик или решатель любых запросов
А Claude для работы составления сложных тех заданий и пр
Друг вообще отказался от gpt и ратотает только с Клаудом
Но у Клауда есть одна проблема - быстро заканчиваются бесплатные токены
На фронтах и в мобильной разработке Claude 3.7 — топ.
В агентской схеме работы (cursor/cline/windsurf/etc) раньше модели от OpenAi были отвратительны и ленивы, потому что отказывались сами писать код и вызывать инструменты для работы с файлами.
Сам код в чате o3-mini-high мог написать и лучше чем Sonnet (PHP, Python, C), но не в режиме агента. У 4.1 с этим никаких проблем нет, по качеству и особенно скорости работы он субъективно лучше 3.7 thinking (насколько можно судить по нескольким часам кодинга в cursor).
Очередные цифры в вакууме, которые ничего не значат и все с ними носятся. Ну стала модель на XXX % лучше. По факту есть примеры, какие задачи она научилась решать?
Условно предыдущие модели не могут решить такую-то задачу и выдают такой-то бред, а вот эта модель научилась ее решать и выдает такой ответ.
Интересно, вообще есть подобные обзоры.
Классный репост пресс-релиза. А независимых бенчмарков нет или просто не нужно? Классно, конечно, что она лучше своих предшественников, но обходит ли она конкурентов?
Вышла OpenAI GPT 4.1 — новая главная модель для программирования