Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый бенчмарк, оценивающий способность ИИ-агентов не просто писать код, а поддерживать его в долгосрочной перспективе. 18 моделей от 8 провайдеров прошли через 100 задач на реальных Python-репозиториях — и большинство не справились с контролем регрессий: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37.
Существующие бенчмарки вроде SWE-bench проверяют, может ли модель исправить конкретный баг за один подход. Но реальная разработка — это месяцы итераций, меняющиеся требования и накапливающийся технический долг. SWE-CI моделирует именно этот процесс: каждая задача охватывает в среднем 233 дня и 71 последовательный коммит истории реального репозитория. Агент должен пройти через десятки циклов "анализ → код → тесты", итеративно развивая кодовую базу от начального коммита к целевому.
Для оценки авторы ввели метрику EvoScore — взвешенное среднее прогресса по итерациям, где более поздние раунды весят больше. Это "наказывает" модели, которые быстро набирают очки на простых правках, но затем "тонут" в последствиях собственных архитектурных решений. Работу выполняет пара агентов: "Архитектор" анализирует провалившиеся тесты и формулирует требования, "Программист" реализует их — как в реальной CI-команде.

Результаты показали четкое расслоение. Claude Opus 4.6 лидирует с показателем zero-regression rate 0,76 — то есть в трех четвертях задач не сломал ни одного ранее работавшего теста за весь цикл. Claude Opus 4.5 показал 0,51. У большинства остальных моделей этот показатель ниже 0,25: Qwen3-Max-2025-09-23 — 0,07, doubao-seed-2-0-pro — 0,08, GPT-5.2 — 0,23. Интересная находка: MiniMax, DeepSeek и GPT предпочитают долгосрочную стратегию, Kimi и GLM — краткосрочную, а Claude, Qwen и Doubao остаются стабильными при любых настройках метрики. В реальных CI-командах регрессия — это заблокированный PR: код, ломающий ранее работавшие тесты, не проходит пайплайн. По этому минимальному стандарту 15 из 18 моделей не дотягивают даже до 37% безрегрессионных задач.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
