Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena / Хабр

Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском режиме. Первое место занял Claude Fable 5 от Anthropic с общим показателем +11,2% — это улучшение результата относительно средней модели (рейтинг постоянно обновляется, так что текущие цифры могут отличаться). Но есть и ложка дегтя: по управляемости новый флагман оказался лишь 17-м из 23 участников.

Отрыв лидера по ключевым сигналам Arena называет самым большим за все время наблюдений. По подтвержденному выполнению задач Fable 5 набрал +18,2% — почти вдвое больше, чем у второго места, Claude Opus 4.8 в режиме рассуждений (+9,85%). По соотношению похвал и жалоб в репликах пользователей разрыв еще заметнее: +30,6% против +15,3% у Opus 4.8. Модель также реже всех вызывает несуществующие инструменты. При этом по скорости восстановления после ошибок в bash она лишь седьмая, а по управляемости — выполнению пользовательских поправок вроде "нет, сделай иначе" — ушла в минус (-6,8%). Авторы рейтинга сформулировали это так: если Fable может что-то сделать, она сделает это очень хорошо, но если не может или не хочет, направить модель к цели бывает трудно.

Методология Agent Arena принципиально отличается от классических арен с парными сравнениями ответов. Рейтинг строится на данных Agent Mode — режима, где модели получают веб-поиск, файловую систему и терминал и выполняют многошаговые задачи реальных пользователей: пишут код, отлаживают проекты, собирают документы и исследуют веб. Подход называется causal tracing: агент рассматривается как система из компонентов (модель-оркестратор, сабагенты, генераторы изображений, элементы харнесса), их выбор рандомизируется между сессиями, и в итоге получается рандомизированное контролируемое испытание. Из него вычисляют каузальный вклад каждого компонента в результат. Сигналы при этом извлекаются отовсюду: из явных кнопок одобрения, из словесных реакций пользователя, из его правок по ходу работы и даже из ответов среды — кодов выхода shell и ошибок инструментов.

Масштаб данных за рейтингом впечатляет сам по себе. За одну неделю через Agent Mode прошло 160 480 задач и 2 миллиона вызовов инструментов, из них 936 тысяч — команды bash. Агенты написали 40,3 миллиона строк кода — примерно по тысяче строк на сессию с кодингом. Каждая третья сессия к финалу разрастается до контекста минимум в 128 тысяч токенов, а 8% переваливают за миллион. Среди самых тяжелых сессий Arena нашла сайт с расписанием спортивных трансляций, автопилот для подводного аппарата и RAG-пайплайн для финансовых исследований.

Параллельно Anthropic собрала урожай и на классических аренах: Claude Fable 5 возглавил Code Arena в категории Frontend с результатом 1664 балла — отрыв от второго места почти в 100 пунктов, а весь топ-7 заняли модели Anthropic. Fable 5 стал первым во всех подкатегориях фронтенда, от гейминга до инструментов аналитики.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.