Cloudflare натравила Claude Mythos на свой код — и перестроила процесс поиска багов / Хабр

Cloudflare опубликовала результаты нескольких недель работы с Claude Mythos Preview — закрытой моделью Anthropic, доступной участникам программы Project Glasswing. Команда безопасности компании запустила модель на более чем 50 собственных репозиториев и описала, что работает, что нет, и почему наивный подход "направить модель на репу и попросить найти баги" дает плохие результаты.

Главный вывод Cloudflare — Mythos Preview делает то, что предыдущие модели не доводили до конца. Прежние LLM общего назначения находили отдельные уязвимости и писали связные описания, но на этом останавливались: цепочки эксплойтов оставались незаконченными, вопрос "а это вообще можно проэксплуатировать?" висел в воздухе. Mythos Preview берет несколько багов низкого уровня — use-after-free, произвольное чтение/запись, ROP-гаджет — и выстраивает из них рабочую цепочку. Результат приходит с готовым Proof of Concept: модель сама пишет код, компилирует его в песочнице, смотрит на результат, корректирует гипотезу и повторяет цикл, пока не подтвердит или не опровергнет уязвимость.

Но самое практичное в посте — не похвала модели, а архитектура вокруг нее. Cloudflare выяснила, что один агент на весь репозиторий дает слабое покрытие и много шума. Вместо этого компания построила конвейер из нескольких этапов: узкий скоуп (каждая задача — конкретная функция, класс атаки, граница доверия), adversarial review (второй агент с другим промптом целенаправленно пытается опровергнуть находки первого), разделение вопросов ("этот код багнутый?" и "может ли атакующий добраться до него снаружи?" — как отдельные задачи) и параллельный запуск примерно 50 агентов одновременно на узких гипотезах с последующей дедупликацией.

Отдельно Cloudflare обратила внимание на безопасность самой модели. В рамках Glasswing Mythos Preview работала без дополнительных ограничений, которые есть в публичных моделях вроде Opus 4.7. Модель иногда отказывалась писать демонстрационные эксплойты — но выполняла эквивалентные задачи, если их сформулировать по-другому. Вывод Cloudflare прямолинеен: встроенные защитные системы реальны, но непоследовательны и сами по себе не могут быть границей безопасности. Любая кибер-модель для широкого использования должна получить дополнительные слои безопасности поверх базового поведения.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.