Компания Scale AI представила бенчмарк SWE-BENCH PRO — он основан на популярном тест SWE-BENCH, но заточен для проверки возможностей ИИ-агентов в условиях, приближенных к реальной разработке. В бенчмарк вошли 1 865 задач из 41 репозитория в трех категориях: открытая (731 задача) из проектов со строгими лицензиями (например, GPL), коммерческая (276 задач) из закрытых кодовых баз стартапов и закрытый поднабор (858 задач), зарезервированный для защиты от "подгляды��ания" в обучении. Такой подход позволяет проверить модели на задачах, которые они точно не могли "подсмотреть" заранее.
Главное отличие SWE-BENCH PRO в уровне сложности. В среднем решение требует изменения 107 строк кода в четырех файлах, а в некоторых случаях — несколько сотен строк сразу. Это ближе к реальным сценариям сопровождения и развития больших проектов.
Для оценки использовался единый агентный шаблон SWE-Agent с фиксированными настройками и метрикой — процент задач, решённых с первой попытки (Pass@1). Каждая модель могла сделать до 200 шагов (действий) на задачу. Результаты приведены по состоянию на 18 сентября 2025 года.

Даже самые сильные модели показали ограниченный успех. На открытой части набора лидером стал GPT-5 с результатом 23,3%, за ним — Claude Opus 4.1 (22,7%). На коммерческой части набора лучший показатель составил лишь 17,8% (Opus 4.1). При этом заметны различия по языкам: лучше всего модели справлялись с задачами на Python и Go, а хуже — на JavaScript и TypeScript.
Авторы исследования отмечают, что SWE-BENCH PRO демонстрирует критический разрыв между возможностями современных ИИ-агентов и требованиями реальной разработки. Если на предыдущих тестах лучшие системы показывали более 70% успешных решений, то новый бенчмарк фиксирует уровень около 18–23%. Исследователи считают, что именно такие задачи задают более честную «базовую планку» для оценки прогресса и позволяют направить развитие моделей в сторону действительно надежных и автономных помощников.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
