runaway_llm17 дек 2025 в 21:00

Claude Code, GPT-5.2 и DeepSeek V3.2 возглавили рейтинг ИИ-программистов — в разных категориях

2 мин

7.4K

Искусственный интеллектМашинное обучение *

Комментарии 5

enigive 17 дек 2025 в 21:17

А Cursor не участвовал в опросе? У него уже достаточно обширный UI функционал, в том числе для правок Frontend части

ilyakruchinin 18 дек 2025 в 03:20

Cursor не является моделью ИИ, это всего лишь графический редактор кода.
Вы сравниваете теплое с мягким.

kuza2000 18 дек 2025 в 05:24

У них есть своя модель - construct. Наряду с другими.

kuza2000 18 дек 2025 в 05:26

Cursor использует многие, упомянутые в статье. Chat gpt 5.2 точно есть, claude sonet и др.

ArZr 17 дек 2025 в 21:38

SWE-rebench отличается от классического SWE-bench тем, что постоянно обновляет набор задач. В текущем окне — 47 задач из 20 репозиториев, все созданы после релиза тестируемых моделей. Это исключает проблему контаминации, когда модель могла видеть решения в обучающих данных.

На главной странице, чуть повыше таблицы с результатами, буквально написано, что красным цветом выделены результаты, которые потенциально могут иметь проблемы с data contamination. Кажется, что можно (и нужно) потратить минут 5 перед тем, как писать статью на Хабр.

А так, конкретно данный бенчмарк частенько показывает достаточно странные результаты, так что как конкретно интерпретировать эти проценты - не совсем ясно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий