
Модель Claude Opus 4.5 от Anthropic заняла первое место в декабрьском обновлении бенчмарка SWE-rebench с результатом 63,3%. На втором месте — gpt-5.2-2025-12-11-xhigh от OpenAI (61,5%), на третьем — Gemini 3 Flash Preview от Google (60%).
SWE-rebench — живой бенчмарк, который ежемесячно обновляется свежими задачами с GitHub: реальными issues и pull requests. В декабрьскую выборку вошли 48 задач из 37 репозиториев. Такой подход снижает риск контаминации — когда модель уже видела тестовые задачи во время обучения. Результаты моделей, которые могли быть контаминированы, помечаются в таблице отдельно.
Стоимость решения одной задачи у лидеров различается заметно: Claude Opus 4.5 — $1,22, GPT-5.2 — $1,46. При этом Gemini 3 Flash Preview обходится всего в $0,29 — в четыре раза дешевле Opus при отставании лишь в 3 процентных пункта. Среди open-source моделей лидирует китайская GLM-4.7 с результатом 51,3% — серьезный рост по сравнению с 40% у предыдущей версии GLM-4.6.
В рейтинге также присутствуют другие модели Anthropic: Claude Sonnet 4.5 занял шестое место с 57,5%, а Claude Code — восьмое с 56,7%. Однако Claude Code отмечен как "внешняя система" — это агентский инструмент с дополнительной оберткой, поэтому его результат не вполне сопоставим с чистыми моделями.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
