Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5 / Хабр

Cursor выпустила Composer 2.5 — новую версию собственной модели для программирования, она уже доступна прямо в редакторе. Главная цифра: на тесте Terminal-Bench 2.0, который имитирует работу в терминале на реальных задачах, модель набрала 69.3% против 61.7% у предыдущей Composer 2. Сама компания говорит, что модель лучше держит длинные задачи, точнее следует сложным инструкциям и приятнее в работе.

По бенчмаркам картина такая: Composer 2.5 встала вровень с лидерами рынка, но не обошла их. На том же Terminal-Bench у нее 69.3% — почти как у Claude Opus 4.7 (69.4%), но заметно ниже GPT-5.5 от OpenAI (82.7%). На SWE-Bench Multilingual, где модель исправляет баги в открытых проектах на разных языках, — 79.8% против 80.5% у Opus и 77.8% у GPT-5.5. Важная оговорка: результаты Opus 4.7 и GPT-5.5 Cursor взяла из заявлений разработчиков, а не измеряла сама.

Главный козырь Cursor — не точность, а цена. На собственном тесте CursorBench, собранном из сложных задач реальной разработки, Composer 2.5 набрала 63.2% при стоимости около доллара за задачу. Для сравнения, Opus 4.7 в режиме по умолчанию выдает сопоставимый результат, но обходится примерно в $7 за задачу. Сама модель стоит 50 центов за миллион входных токенов и $2,5 за миллион выходных. Есть быстрый вариант с той же точностью за $3 и $15 соответственно — и именно он стоит по умолчанию. Первую неделю лимит удвоен.

Отдельно Cursor впервые наглядно показала, сколько в модели своего. Composer 2.5, как и Composer 2, построена на открытой Kimi K2.5 от китайской Moonshot AI — за это весной компанию обвиняли в том, что она выдает чужую модель за свою и нарушает условия лицензии. Теперь Cursor приводит график: на базовую Kimi приходится около 15% всех вычислений, а остальные 85% — собственное дообучение и обучение с подкреплением, то есть метод, где модель учат на наградах за удачные решения. Тогда вице-президент компании говорил про "примерно четверть" — в новом раскладе доля базы оказалась еще меньше.

Что дальше. Composer 2.5 — все еще дообученная Kimi, но Cursor параллельно строит другую модель: с нуля и крупнее, вместе с xAI Илона Маска. На нее заложено в десять раз больше вычислений и кластер Colossus 2 на миллион ускорителей уровня Nvidia H100. Это уже не доводка чужой базы, а попытка сделать собственную модель переднего края — и реального скачка в Cursor ждут именно от нее, а не от версии 2.5.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.