Как нейросети проходят тесты на кибербезопасность / Habr

Сборка дизассемблера на языке Rust за десять минут и обход корпоративного периметра без участия человека перестали быть теоретическим сценарием. Алгоритмы больше не просто генерируют фрагменты кода. Системы удерживают контекст, перебирают гипотезы и комбинируют разрозненные утилиты в рабочую цепочку. Разница между автоматизированным скриптом и автономным агентом заключается в способности программы корректировать тактику после каждого отказа, анализируя вывод терминала и формируя новый запрос. https://seberd.ru/25277

Как полигоны оценивают автономность ИИ в кибератаках

Британский институт AI Security Institute с 2023 года прогоняет алгоритмы через 95 заданий в формате Capture the Flag. Задачи охватывают реверс-инжиниринг, эксплуатацию веб-уязвимостей и криптографические протоколы. Наивысший уровень Expert требует от системы самостоятельного планирования, написания кода и адаптации к ошибкам. Модель использует цепочку рассуждений для вызова внешних скриптов, анализирует вывод и корректирует следующий запрос.

Регулятор разработал два специфических полигона для оценки многошаговых атак. Сценарий The Last Ones моделирует выгрузку данных из корпоративной сети и состоит из 32 последовательных этапов. Cooling Tower имитирует вмешательство в систему управления энергообъектом и включает 7 шагов с аппаратными ограничениями. Каждая из 71 кибероценки повторялась 10 раз для каждой модели, чтобы исключить случайные успехи.

Как ИИ удерживает контекст при многошаговых атаках

Автономное прохождение 32 этапов требует удержания контекста на протяжении десятков тысяч токенов. Предыдущие архитектуры теряли нить атаки после пятого или шестого шага. Системы начинали повторять одни и те же действия или генерировать некорректные команды. Новые модели используют внешние инструменты для фиксации промежуточного состояния. Алгоритм записывает найденные учетные данные, открытые порты и топологию сети во временное хранилище. Затем система считывает эти данные перед выполнением следующего шага.

Подобный подход реализует механизм фиксации состояния, который используют специалисты при ручном тестировании. Алгоритм сохраняет переменные окружения и использует их как входные параметры для следующих итераций. Разница заключается в скорости перебора гипотез. Модель анализирует ответ целевой системы за миллисекунды и мгновенно формирует новый запрос. Способность комбинировать внешние утилиты с внутренним планированием позволила новым моделям преодолеть барьер многошаговости.

Зачем злоумышленники используют хакерские LLM

Открытые веса моделей позволили сообществу создавать специализированные версии, лишенные стандартных ограничений безопасности. Так называемые хакерские LLM дообучаются на базах эксплойтов, write-up с CTF-соревнований и форумах, посвященных информационной безопасности. Такие системы игнорируют этические фильтры и напрямую генерируют вредоносный код или обфусцированные скрипты.

Разработчикам систем защиты придется адаптировать сигнатуры под поведение алгоритмов, которые пишут вредоносный код в реальном времени. В условиях гибридных сред с самописными системами, решениями на базе 1С и отечественными операционными системами вроде Astra Linux или РЕД ОС статические правила перестают работать против динамически генерируемых цепочек. Модель анализирует структуру компилятора, определяет используемые версии библиотек и адаптирует код под конкретную среду исполнения. При возникновении ошибок компиляции система читает вывод терминала, анализирует трассировку стека и вносит правки в исходный код. Точные сроки такой адаптации защитных механизмов остаются неопределенными.

Результаты тестов GPT-5.5 и Claude Mythos

Независимые проверки фиксируют выход возможностей алгоритмов на новый уровень. Модель GPT-5.5 решила 71,4 процента экспертных задач. Claude Mythos Preview остановился на отметке 68,6 процента. Разница укладывается в статистическую погрешность измерений.

Один конкретный кейс требует внимания специалистов. Алгоритм самостоятельно собрал дизассемблер для бинарного файла на языке Rust за десять минут. Стоимость API-запросов составила менее двух долларов. Человеку на выполнение аналогичной задачи потребовалось бы несколько часов подготовки окружения и анализа структуры компилятора. Модели перестали просто генерировать фрагменты кода. Они научились удерживать контекст, перебирать гипотезы и комбинировать разрозненные инструменты в рабочую цепочку.

Почему классические SIEM пропускают растянутые во времени атаки

Автономное удержание цели позволяет алгоритму корректировать тактику после каждого отказа. Система анализирует ошибки на первом шаге и меняет подход на втором. Раньше подобное поведение было недоступно для чисто программных решений.

Классические системы SIEM ориентированы на обнаружение коротких всплесков аномальной активности. Автономные агенты растягивают атаку во времени. Они выполняют по одному действию в час или даже в день. Подобная тактика снижает частоту событий до уровня, который не превышает пороговые значения стандартных правил корреляции. Командам безопасности приходится перестраивать правила корреляции. Аналитики выстраивают профили поведения на протяжении недель вместо поиска одиночных подозрительных событий. Система должна отслеживать медленное накопление прав, постепенный сбор информации о топологии и редкие обращения к внутренним сервисам. Интеграция данных с сетевых сенсоров и конечных точек становится критической для выявления таких цепочек.

Какие меры защиты внедрить против автономных ИИ-агентов

Внедрение конкретных мер требует изменения архитектуры мониторинга и отказа от надежды на универсальные решения.

[√] Внедрить контроль целостности критических бинарных файлов с проверкой контрольных сумм на этапе исполнения. Подобная мера блокирует подмену легитимных утилит вредоносным кодом в памяти.

[√] Сегментировать сети так, чтобы успешный проход одного этапа не открывал доступ к следующему без повторной аутентификации. Сегментация разрывает длинные цепочки атак, которые строят автономные агенты.

[√] Тестировать собственные периметры с использованием автономных агентов в изолированных контурах. Регулярные симуляции выявляют слабые места до реального инцидента.

[ ] Вести журналы действий моделей для фиксации нестандартных последовательностей запросов к API и базам данных. Анализ логов помогает обнаружить скрытую подготовку к инциденту.

[x] Настроить алерты на аномальную частоту обращений к внутренним сервисам в нерабочие часы. Резкий всплеск активности часто указывает на автоматизированный перебор.

Какие ограничения имеют текущие методы обнаружения ИИ-угроз

Ситуация меняется быстрее, чем успевают обновляться стандарты и учебные программы. Ограниченный доступ к продуктам не отменяет необходимости готовиться заранее. Полная автоматизация защиты пока остается утопией. Человек по-прежнему отвечает за архитектуру контуров, выбор метрик и интерпретацию аномалий.

Разработчики часто выбирают стратегию закрытого пилота. Подобный подход выглядит как мера предосторожности, однако независимые проверки показывают общую тенденцию роста автономности. Улучшения затрагивают не конкретную архитектуру, а фундаментальные возможности долгосрочного планирования и написания кода. Исходные веса и адаптивные архитектуры попадают в открытый доступ через несколько месяцев. Запрет на публичный запуск не останавливает распространение технологий. Команды защиты выигрывают за счет скорости реакции и глубины понимания собственных систем.

Оригинальные веса модели LLaMA случайно утекли через двух сотрудников. Компания позже официально открыла веса, но изначально это был закрытый релиз
Исследователи безопасности обнаружили более 1600 утечек API-токенов Hugging Face, принадлежащих сотням организаций
Hugging Face раскрыл инцидент с несанкционированным доступом к секретам на платформе Spaces
OpenAI случайно опубликовала 120-миллиардную модель с открытыми весами на Hugging Face
По данным CNews утечки данных через ИИ-сервисы в российских компаниях выросли в 30 раз за год. Почти две трети компаний не контролируют такие утечки
British Airways, DeepMind и Royal Free NHS Trust, Clearview AI — все эти случаи задокументированы как реальные инциденты с утечками данных, связанные с ИИ-системами

Организации должны отслеживать действия, которые выглядят как легитимная работа, но растянуты во времени и распределены по десяткам узлов. Ответ зависит от качества мониторинга и скорости реакции аналитиков. Деталей о том, как именно хакерские модели обходят конкретные аппаратные разрывы в промышленных сетях, пока недостаточно для формирования универсальных правил, поэтому полагаться исключительно на автоматические блокировки не стоит.