Комментарии 5
А Cursor не участвовал в опросе? У него уже достаточно обширный UI функционал, в том числе для правок Frontend части
SWE-rebench отличается от классического SWE-bench тем, что постоянно обновляет набор задач. В текущем окне — 47 задач из 20 репозиториев, все созданы после релиза тестируемых моделей. Это исключает проблему контаминации, когда модель могла видеть решения в обучающих данных.
На главной странице, чуть повыше таблицы с результатами, буквально написано, что красным цветом выделены результаты, которые потенциально могут иметь проблемы с data contamination. Кажется, что можно (и нужно) потратить минут 5 перед тем, как писать статью на Хабр.
А так, конкретно данный бенчмарк частенько показывает достаточно странные результаты, так что как конкретно интерпретировать эти проценты - не совсем ясно.

Claude Code, GPT-5.2 и DeepSeek V3.2 возглавили рейтинг ИИ-программистов — в разных категориях