Simbian Research опубликовала Cyber Defense Benchmark – первую методику, которая проверяет, способна ли LLM автономно искать атакующего в реальной телеметрии. Ни одна из 11 фронтирных моделей не набрала проходного балла. Пока AI заметно сильнее помогает атакующим, чем защищающимся, единственный рабочий ответ для корпоративной сети – эшелонированная оборона, микросегментация и ZTNA.
Что произошло
28 апреля 2026 года Simbian Research опубликовала результаты Cyber Defense Benchmark – по их словам, первого в мире бенчмарка, который проверяет LLM не на знание MITRE ATT&CK по тестам, а на способность самостоятельно охотиться за злоумышленником в сырой телеметрии.
Тестировали 11 фронтирных моделей от Anthropic, OpenAI, Google, Alibaba, DeepSeek, Minimax и Moonshot AI. На вход – реальные журналы Sysmon и Security Log с Windows-эндпоинтов, снятые в лаборатории при отработке атак с помощью Empire, Covenant, Mimikatz и Rubeus. Каждая модель получала аналитическую сводку об угрозах и SQL-доступ к базе журналов, после чего за 50 запросов должна была вернуть точные временны́е метки вредоносных событий по 105 процедурам, покрывающим 93 суб-техники MITRE ATT&CK. Всего – 884 прогона, оценка детерминированная, без LLM-судей (Business Wire).
Проходного балла не получил никто.
Цифры