Scale Labs запустила Refactoring Leaderboard — третий и последний элемент исследовательского пакета SWE Atlas, оценивающего ИИ-агенты на задачах разработки ПО. В отличие от классических бенчмарков, где модель решает изолированные задачи, новый лидерборд проверяет агентов на работе с кодом промышленного уровня: понимание существующей архитектуры, правки в нескольких файлах, прохождение тестов и уборка устаревших артефактов после рефакторинга. По данным Scale Labs, задачи Refactoring требуют примерно вдвое больше изменений строк кода и в 1,7 раза больше правок файлов, чем задачи SWE-Bench Pro — это делает бенчмарк более жестким тестом многофайловой инженерной работы.
Тестируются четыре типа задач:
Декомпозиция монолитных реализаций
Замена слабых интерфейсов на типизированные или более чистые абстракции
Вынесение дублирующейся или неуместной логики в общие модули
Перемещение кода для улучшения границ модулей
Каждая задача оценивается через прохождение тестов и набор критериев, проверяющих поддерживаемость кода, очистку артефактов, отсутствие антипаттернов и качество документации.

Главный вывод исследования — модели часто умеют сделать рефакторинг, который проходит тесты, но проваливают инженерные критерии. Агенты регулярно оставляют мертвый код, устаревшие импорты, дублирующиеся реализации, устаревшие комментарии и пропущенные точки вызова. Именно эта проблема "уборки" разделяет модели, которые умеют выполнять видимую часть задачи, и те, что выдают изменения промышленного уровня.
Еще глубже лежит проблема воспроизводимости. По данным Scale Labs, при трех попытках решить одну и ту же задачу модели в 2-3 раза чаще успешны хотя бы один раз, чем во всех трех попытках подряд. То есть в одиночном прогоне модель может выглядеть способной, но недостаточно стабильна для автономных промышленных сценариев. Глава Scale Labs Джейсон Дрёге считает надежность центральной проблемой ИИ-агентов — и новый лидерборд это подтверждает: пик возможностей и стабильность развиваются не в одном темпе.
Refactoring Leaderboard замыкает SWE Atlas — ранее Scale Labs выпустила бенчмарки Codebase QnA (понимание чужого кода) и Test Writing (написание тестов). Все три направления вместе позиционируются как фреймворк для оценки ИИ-агентов скорее как разработчиков, а не как генераторов кода: агент должен изучить репозиторий, восстановить архитектурные ограничения, внести скоординированные правки и не сломать существующее поведение.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
