Как стать автором
Поиск
Написать публикацию
Обновить
486.49
Сбер
Технологии, меняющие мир

AI Labyrinth от Cloudflare: как генеративный ИИ стал оружием против ботов-скрейперов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.2K

С развитием генеративного ИИ боты-скрейперы стали умнее и настойчивее. Они обходят традиционные методы защиты и массово сканируют сайты, собирая данные для обучения своих моделей. Ежедневно в сети Cloudflare фиксируется более 50 миллиардов запросов от ИИ-краулеров — это почти 1% всего интернет-трафика.

Компания предложила новое решение проблемы — AI Labyrinth. Вместо прямого блокирования инструмент дезориентирует ботов, заставляя их тратить время и ресурсы на обработку бесполезного контента.

Как работает AI Labyrinth?

Механизм AI Labyrinth от Cloudflare — это многоуровневая структура, которая не только блокирует вредоносных ботов, но и превращает их атаки в инструмент для улучшения безопасности.  Вот как это работает.

Обнаружение и перенаправление

Первый уровень защиты начинается с анализа трафика в реальном времени. Cloudflare отслеживает:

  • аномальную частоту запросов (например, >100 запросов в секунду);

  • отсутствие взаимодействия с интерактивными элементами (например, движения курсора или кликов);

  • подозрительные User-Agent (например, GPTBot, CCBot, Google-Extended).

  • использование IP-адресов из пулов, ассоциированных с ботами

Система применяет машинное обучение для выявления паттернов, характерных для ИИ-скрейперов. Как только бот распознан, его перенаправляют в «лабиринт» — цепочку AI-сгенерированных страниц.

Замедление и истощение ресурсов 

Попав в лабиринт, бот оказывается в замкнутом цикле, где система генерирует сотни взаимосвязанных страниц с псевдонаучными текстами, фальшивыми товарными карточками или вымышленными новостными статьями. 

Например, бот, запрограммированный на сбор 1000 страниц за час, вместо этого тратит время на обработку 10 000 фейковых страниц. Каждый переход по ссылке углубляет его в лабиринт, заставляя обрабатывать всё новые слои контента.

Этот подход атакует экономику злоумышленников. Затраты на хостинг бота, вычислительные ресурсы для парсинга и электроэнергию возрастают, а ценность собранных данных стремится к нулю.

Идентификация и обучение моделей

Третий уровень превращает лабиринт в интеллектуальную ловушку. Если посетитель проходит 3–5 уровней фейковых страниц, система уверенно классифицирует его как бота — обычный пользователь или легитимный краулер не станут кликать на скрытые ссылки, замаскированные через CSS-свойство display: none и ARIA-атрибуты.

Но на этом процесс не заканчивается. Данные о поведении бота — время между запросами, последовательность переходов, заголовки HTTP, реакции на динамический контент — передаются в нейросети Cloudflare. Это создаёт петлю обратной связи: каждое взаимодействие с лабиринтом обучает модели распознавать новые типы угроз. Например, если боты начнут игнорировать ссылки с opacity: 0, система автоматически изменит методы маскировки, добавив JavaScript-ловушки или фальшивые API-эндпоинты.

Таким образом, AI Labyrinth прогнозирует будущие векторы атак, используя самих злоумышленников как источник данных. 

Техническая реализация: как создается лабиринт?

В основе AI Labyrinth лежит контент, который должен быть достаточно убедительным, чтобы обмануть ИИ-скрейперов, но при этом технически «стерильным» и бесполезным. Это означает, что контент должен быть правдоподобным на первый взгляд, но не содержать информации, которая могла бы быть использована во вред или для обучения моделей злоумышленников. 

Для этого Cloudflare использует Workers AI — платформу для запуска открытых LLM-моделей (Mistral или Llama). Workers AI позволяет эффективно развёртывать и масштабировать LLM-модели непосредственно в сети Cloudflare, обеспечивая минимальную задержку и высокую производительность.

Система генерирует тексты на сотни тем — от описания вымышленных научных экспериментов до псевдоисторических хроник. Например, для сайта о путешествиях AI Labyrinth может генерировать статьи о «несуществующих островах» с вымышленными координатами, фотографиями, сгенерированные нейросетями, и подробными описаниями флоры и фауны.

Несмотря на искусственное происхождение, контент проходит строгую фильтрацию:

  • исключаются противоречия с общеизвестными фактами (например, не генерируют утверждения, противоречащие законам физики), чтобы избежать распространения дезинформации в случае, если контент по ошибке попадёт в поисковую выдачу;

  • удаляются оскорбительные, предвзятые или иным образом неприемлемые материалы.

Все страницы AI Labyrinth автоматически проверяются на уязвимости XSS (межсайтовый скриптинг) и SQL-инъекции. Это предотвращает использование AI Labyrinth в качестве вектора для обратных атак на сам сайт или на посетителей, случайно попавших в лабиринт. 

Оптимизация производительности

Чтобы избежать задержек, контент не генерируется в реальном времени по запросу бота. Вместо этого работает конвейер предварительной обработки:  

  • Пакетная генерация тысяч страниц контента заранее, используя заданные темы и параметры.

  • Очистка от потенциально опасных элементов, которые могут представлять угрозу безопасности.

  • Сохранение в облачном хранилище R2 с глобальным кэшированием.  

В результате, при перенаправлении бота система мгновенно извлекает готовые страницы, снижая нагрузку на серверы.  

Интеграция с сайтом 

Для внедрения AI Labyrinth на существующий сайт Cloudflare использует HTML-трансформер — инструмент, который позволяет динамически изменять HTML-код страницы «на лету», не требуя изменений в основном коде сайта.

Техники маскировки:  

  • CSS-камуфляж — ссылки на страницы AI Labyrinth скрыты с помощью CSS-стилей, таких как display: none и opacity: 0. Для усложнения обнаружения ботами используются динамические классы, которые генерируются случайным образом при каждом обновлении страницы (например, class="hidden-link-a4b7").

  • Семантическая невидимость — ARIA-атрибут aria-hidden="true" сообщает скринридерам (программам чтения с экрана, используемым людьми с ограниченными возможностями) и легитимным краулерам (например, поисковым роботам Яндекса и Google), что элементы не предназначены для взаимодействия и должны быть проигнорированы.

  • Защита SEO — метатег <meta name="robots" content="noindex"> добавляется на все страницы AI Labyrinth, чтобы заблокировать их индексацию поисковыми системами, таким образом сохраняя рейтинг основного сайта и предотвращая попадание сгенерированного контента в поисковую выдачу.

Ссылки на AI Labyrinth добавляются только при обнаружении подозрительного поведения. Например, если бот начинает сканировать страницу со скоростью 10 запросов в секунду, что значительно превышает скорость, характерную для обычного пользователя, HTML-трансформер динамически встраивает скрытые элементы в ответ. Для обычного пользователя страница остаётся визуально неизменной.

Адаптация к современным ИИ-ботам

Современные ИИ-боты быстро адаптируются, поэтому AI Labyrinth постоянно развивается. Cloudflare внедряет два ключевых усовершенствования:

1. Сети URL-адресов. Вместо простых линейных цепочек страниц AI Labyrinth создаёт древовидные структуры, имитирующие навигацию по реальному сайту. Например, для интернет-магазина генерируется фальшивый каталог с псевдотоварами, разделами «Акции» и «Отзывы». Каждая страница содержит ссылки на 5–10 «дочерних» URL, формируя многоуровневую иерархию. Это усложняет задачу ботов по определению того, что они попали в ловушку.

2. Имитация поведения сайта. Некоторые страницы AI Labyrinth используют JavaScript для создания эффекта «живого» интерфейса — например, бесконечной ленты загрузки контента при прокрутке страницы вниз. Для ботов, сканирующих бэкенд, генерируются поддельные API-эндпоинты с фиктивными данными.

Данные о сработавших ловушках анализируются моделями машинного обучения. На основе этого анализа система автоматически:

  • обновляет тематику контента, например, увеличивает долю технических текстов, если боты игнорируют гуманитарные;

  • изменяет частоту и расположение скрытых ссылок;

  • добавляет новые методы маскировки, например, скрытие с помощью <div hidden> или генерацию Canvas-отпечатков.

Этот процесс непрерывного анализа и адаптации позволяет AI Labyrinth оставаться эффективным против постоянно развивающихся ИИ-ботов.

Искусственные приманки для искусственного интеллекта

История цифровых приманок началась задолго до эпохи искусственного интеллекта. В 1986 году появилась одна из первых киберприманок — идея, описанная Клиффордом Столлом в его книге «Яйцо кукушки». Обнаружив несанкционированный доступ, администратор подсунул злоумышленнику поддельный файл, активация которого отправляла уведомление о взломе и, позволяя отследить его действия.

В 2004 году будущие основатели Cloudflare разработали Project Honeypot — систему email-ловушек для борьбы со спамом. Она создавала фальшивые почтовые ящики, активируемые только ботами-сборщиками адресов. Однако к 2010-м годам боты научились распознавать простые приманки. 

Современные ИИ-скрейперы требуют принципиально иного подхода. Их ключевая слабость — жадность к данным: они запрограммированы собирать всё подряд, и именно это эксплуатирует AI Labyrinth.

Система отслеживает не только факт попадания в ловушку, но и методы работы бота:

  • скорость сканирования (человек не делает 100 запросов в секунду);

  • глубину погружения (легитимные краулеры ограничены robots.txt, а ИИ-скрейперы игнорируют правила);

  • реакцию на динамику (боты часто не обрабатывают JavaScript).

Каждое взаимодействие оставляет цифровые следы:

  • HTTP-заголовки (нестандартные поля вроде X-AI-Scanner);

  • поддержка технологий (многие боты не загружают CSS/JS);

  • сетевые паттерны (использование Tor или публичных прокси).

Когда ИИ-скрейпер атакует сайт, он ожидает найти ценные данные, но вместо этого получает тонны бессмысленной информации. Даже если злоумышленник поймёт, что попал в ловушку, ему придётся менять алгоритмы, тратя время и деньги, и рисковать тем, что новые методы снова будут раскрыты.

Заключение

Это лишь первая попытка использовать генеративный ИИ для борьбы с ботами. Хотя сгенерированный контент выглядит правдоподобно, он не соответствует структуре каждого веб-сайта. В дальнейшем Cloudflare будет работать над тем, чтобы такие ссылки было труднее обнаружить и чтобы они органично вписывались в структуру сайта, на котором они размещены.

Теги:
Хабы:
+9
Комментарии7

Информация

Сайт
www.sber.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия