Бенчмарк SWE-rebench обновил таблицу лидеров среди ИИ-программистов. Первое место занял Claude Code — агентский инструмент Anthropic для работы в терминале, решивший 62,1% реальных задач из GitHub-репозиториев. Среди проприетарных моделей лидирует GPT-5.2-medium от OpenAI с результатом 61,3%, среди открытых — DeepSeek V3.2 с 46,4%.

SWE-rebench отличается от классического SWE-bench тем, что построен на совсем новых задачах: сейчас их 47 из 20 репозиториев. Это снижает проблему контаминации, когда модель могла видеть решения в обучающих данных, но не исключает ее полностью для последних релизов вроде той же GPT-5.2.

Claude Code — агент для командной строки, который сам читает файлы, запускает тесты и итеративно правит код. Это объясняет его отрыв от Claude Opus 4.5 и Claude Sonnet 4.5, которые работают через обычный API и заняли третье и четвертое места с результатами около 60%. При этом Claude Code тратит почти 2 млн токенов на задачу — больше всех в топ-10.

GPT-5.2-medium появился 12 декабря — буквально за пять дней до публикации результатов — и сразу занял второе место. Примечательно, что он экономнее конкурентов: 884 тысячи токенов на задачу против 1,2–1,9 млн у моделей Anthropic и предыдущих версий GPT-5. Стоимость решения одной задачи — $0,47, что делает его одним из самых выгодных вариантов в топ-5. Также интересно, что "средняя" модель обходит GPT-5.1-Codex-Max, которую OpenAI продвигала как топ-модель для кодинга.

DeepSeek V3.2 возглавил категорию открытых моделей с результатом 46,4% — это выше, чем у GLM-4.6 (46%) и свежих Devstral-2 от Mistral (43,8% у 123B-версии). При стоимости $0,56 за задачу китайская модель предлагает качество, сопоставимое с проприетарными решениями прошлого поколения, за меньшие деньги. Но в общем рейтинге — только тринадцатое место.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.