Стартап Arcade запустил ToolBench — первый публичный бенчмарк качества MCP-серверов. Платформа проиндексировала 41 921 сервер и проанализировала 218 422 инструмента. Результат отрезвляет: только 0,5% инструментов получили оценку A или выше. Три четверти — 76,6% — провалились с оценкой F, то есть набрали меньше 50 баллов из 100.

ToolBench оценивает MCP-серверы по четырем измерениям. Для локальных серверов это качество описаний инструментов (50% веса), соответствие протоколу MCP (20%) и поддерживаемость — звезды на GitHub, частота обновлений, наличие лицензии (30%). Для удаленных серверов вместо качества описаний проверяется безопасность: поддержка OAuth 2.0, PKCE, корректность аутентификации. Итоговый балл определяет буквенную оценку — от A+ (90–100) до F (ниже 50). Методология основана на "54 паттернах агентных инструментов", которые Arcade выработала, создав более 8 000 собственных production-инструментов для корпоративных клиентов.

Проблема не только в качестве самих серверов — часть корпоративных приложений активно сопротивляется доступу ИИ-агентов. Как написала Лора Браттон из The Information, Slack, Workday и LinkedIn ограничивают возможности сторонних агентов работать с их данными. Алекс Салазар, CEO Arcade, подтвердил в LinkedIn, что результаты ToolBench показывают ту же картину: даже когда MCP-сервер для сервиса существует, ограничения API не дают агенту сделать ничего полезного.

Контекст делает цифры еще интереснее. К марту 2026 года MCP пересек отметку в 97 миллионов ежемесячных загрузок SDK. Протокол поддерживают OpenAI, Google, Microsoft, его передали в Linux Foundation. Но рост экосистемы явно опережает качество: из почти 42 000 серверов лишь около тысячи инструментов готовы к тому, чтобы ИИ-агент мог их надежно использовать в продакшене.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.