Как стать автором
Обновить

Комментарии 18

Спасибо за обзор! Интересно сравнение с Claude в кодинге

И с gemini

А мне, вот, интересно сравнение с ChatGPT o1 Pro.

Я видел комментарий, что у OpenAI модель 4.1 тренировалась на данных середины 2024.

А вот Gemini 2.5 - начало 2025.

Это может быть критично для проектов, в которых новые версии выходят чуть ли не каждую неделю.

С миллионным контекстом документацию можно и приложить

Субъективно за несколько часов в Cursor:

  • хорошо слушается инструкций;

  • активно использует CoT - просит уточнений и согласования решения перед переходом к действиям (Sonnet часто приходится ловить в середине, когда он начинает лепить откровенную дичь);

  • хорошо держит контекст.

По ощущениям модель сопоставима либо лучше Sonnet 3.7 (даже thinking), на сколько - объективно не могу сказать. Но точно на голову выше 4o, он в агентской схеме был очень ленивым и часто просил все сделать за него.

Очень жду независимых бенчмарков! Давно не выходило альтернативных моделей для кодинга)

В Cursor появилась в рамках тарифа (в отличие от Claude Sonnet 3.7 Max и Gemini 2.5 Pro Max, за которые надо дополнительно доплачивать за каждый запрос). Проверим. Не думаю, что она и в перспективе станет платной, если она дешевле 4o, а 4o включена в тариф.

P.S. Но вот размер контекста для gpt-4.1 у Cursor в справке указан всего 128k токенов, а отнюдь не миллион...

Раньше тарифы обсуждали домохозяйки, теперь программисты обсуждают тарифы, а домохозяйки могут кодить.

Claude Sonnet 3.7 Max и Gemini 2.5 Pro Max входят в Pro тариф Cursor, просто расход у них выше, так как каждый toolcall считается, как отдельный request из вашего месячного лимита.

P.S. Возможно Cursor потом сделают gpt-4.1-max

GPT 4.1 — новая главная модель для программирования

Ух ты, новая главная модель для программирования почти догнала sonnet 3.5 в бенчмарках которые они сами же и приводят, волшебно.

Поделитесь, для каких задач в программировании и на каких языках Claude sonnet 3.5 или 3.7 лучше чем gpt o3-mini-high?

.NET/Terraform HCL/PowerShell/AWS SDK - Claude 3.7 намного лучше чем ChatGPT o3-high-mini. Claude 3.7 почти сразу предлагает рабочее решение (если оно вообще есть), требующее лишь небольшого допиливания. ChatGPT o3-high-mini на более-менее сложных заданиях уносит "не в ту степь". Возможно, Claude 3.7 тренировали на реальных репах GitHub, а ChatGPT - сделали упор на доступных гайдах.

Да во всех. Если что то сложнее пайтона или sql

Написать на Delphi или C# код для Парсинга и отработки DEX площадки ?

Или сложную функцию ? В Клауде у вас будет 2-3 правки а в got около 40 правок за час

Got отличный в общих вещах, а Клауд в разработке. Да даже попросите сделать тех задание под свой проект у gpt и Клауда и сравните. Я держу оба ( плачу за оба ) got как поисковик или решатель любых запросов

А Claude для работы составления сложных тех заданий и пр

Друг вообще отказался от gpt и ратотает только с Клаудом

Но у Клауда есть одна проблема - быстро заканчиваются бесплатные токены

На фронтах и в мобильной разработке Claude 3.7 — топ.

В агентской схеме работы (cursor/cline/windsurf/etc) раньше модели от OpenAi были отвратительны и ленивы, потому что отказывались сами писать код и вызывать инструменты для работы с файлами.

Сам код в чате o3-mini-high мог написать и лучше чем Sonnet (PHP, Python, C), но не в режиме агента. У 4.1 с этим никаких проблем нет, по качеству и особенно скорости работы он субъективно лучше 3.7 thinking (насколько можно судить по нескольким часам кодинга в cursor).

Очередные цифры в вакууме, которые ничего не значат и все с ними носятся. Ну стала модель на XXX % лучше. По факту есть примеры, какие задачи она научилась решать?

Условно предыдущие модели не могут решить такую-то задачу и выдают такой-то бред, а вот эта модель научилась ее решать и выдает такой ответ.

Интересно, вообще есть подобные обзоры.

Классный репост пресс-релиза. А независимых бенчмарков нет или просто не нужно? Классно, конечно, что она лучше своих предшественников, но обходит ли она конкурентов?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости