Обновить

Комментарии 5

А Cursor не участвовал в опросе? У него уже достаточно обширный UI функционал, в том числе для правок Frontend части

Cursor не является моделью ИИ, это всего лишь графический редактор кода.
Вы сравниваете теплое с мягким.

У них есть своя модель - construct. Наряду с другими.

Cursor использует многие, упомянутые в статье. Chat gpt 5.2 точно есть, claude sonet и др.

SWE-rebench отличается от классического SWE-bench тем, что постоянно обновляет набор задач. В текущем окне — 47 задач из 20 репозиториев, все созданы после релиза тестируемых моделей. Это исключает проблему контаминации, когда модель могла видеть решения в обучающих данных.

На главной странице, чуть повыше таблицы с результатами, буквально написано, что красным цветом выделены результаты, которые потенциально могут иметь проблемы с data contamination. Кажется, что можно (и нужно) потратить минут 5 перед тем, как писать статью на Хабр.

А так, конкретно данный бенчмарк частенько показывает достаточно странные результаты, так что как конкретно интерпретировать эти проценты - не совсем ясно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости