Компания OpenAI совместно с Paradigm представила EVMbench - бенчмарк для оценки способности ИИ-агентов выявлять, исправлять и эксплуатировать бреши в смарт-контрактах.

Инструмент основан на 120 отобранных уязвимостях из 40 аудитов. Большинство примеров взяты из открытых платформ по анализу кода. Также он включает несколько сценариев атак из проверки безопасности блокчейна Tempo - специализированной сети первого уровня, разработанной Stripe и Paradigm для высокопроизводительных и недорогих платежей в стейблкоинах.
Интеграция с Tempo позволила добавить в бенчмарк платежные смарт-контракты - сегмент, где ожидается активное применение «стабильных монет» и ИИ-агентов.
«Смарт-контракты защищают криптоактивы на сумму более $100 млрд. По мере того, как ИИ-агенты совершенствуются в чтении, написании и исполнении кода, становится все важнее измерять их возможности в реальных экономических условиях и поощрять использование искусственного интеллекта в защитных целях - для аудита и укрепления уже развернутых протоколов», - говорится в анонсе.
Для создания тестовой среды OpenAI адаптировала существующие эксплойты и скрипты, предварительно убедившись в их практической применимости.
EVMbench оценивает три режима возможностей:
Detect - обнаружение уязвимостей;
Patch - устранение проблем;
Exploit - использование для кражи средств.
Результативность ИИ-моделей
OpenAI протестировала передовые модели во всех трех режимах. В категории Exploit модель GPT-5.3-Codex достигла 72,2%, GPT-5 - 31,9%. При этом показатели обнаружения и исправления уязвимостей оказались скромнее - многие проблемы по-прежнему сложно находить и устранять.
В Detect ИИ-агенты иногда останавливаются после нахождения одной уязвимости вместо проведения полного аудита. В режиме Patch им пока сложно закрывать неочевидные проблемы так, чтобы сохранить полную функциональность контракта.
«EVMbench не отражает всей сложности реальной безопасности смарт-контрактов. Хотя они реалистичны и критичны, многие протоколы проходят более строгий аудит и могут быть сложнее для эксплуатации», — подчеркнули в OpenAI.
Напомним, в ноябре 2025 года Microsoft представила среду для тестирования ИИ-агентов и выявила уязвимости, присущие современным цифровым помощникам.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
