ИИ уже читает ваш сайт, но по каким правилам? LLMs.txt, robots.txt и контроль агентов / Хабр

Еще пару лет назад веб жил в простой и понятной модели: есть сайты, есть поисковые роботы, есть пользователи. Роботы приходят, сканируют страницы, кладут их в индекс — дальше начинается привычная борьба за позиции в выдаче. Эта логика десятилетиями определяла, как мы строим сайты, настраиваем SEO и пишем robots.txt.

С появлением LLM-агентов эта модель начала трещать по швам.

Влад Лукашенко

Head of SEO, Тензор (разработчик saby.ru), автор ТГ‑канал «ВладПРО»

Я более 10 лет занимаюсь аналитикой, SEO и управлением командами в digital‑маркетинге. А в своем Телеграм канале пишу еще больше про всякое из реального маркетинга. Консультирую по аналитике web‑проектов и настройке инструментов маркетинга, помогаю проводить технические собеседования специалистов по различным типам трафика.

Поисковые роботы и ИИ-агенты — это принципиально разные сущности. Классический бот поисковика интересуется структурой сайта и содержимым страницы ровно в той степени, в которой это нужно для индексации и ранжирования. Его задача — понять, о чём страница, и решить, стоит ли показывать ее пользователю в поиске.

LLM-агенты работают иначе. Они не ограничиваются индексацией. Они читают контент целиком, пересказывают его, комбинируют с другими источниками и используют как материал для ответов пользователям. Для них сайт — это кусок базы знаний.

И тут выясняется, что привычные инструменты веба решают лишь часть задач. Robots.txt отлично подходит для управления доступом к страницам, но он никак не отвечает на вопрос, что именно можно делать с контентом после того, как он был прочитан. Можно ли использовать текст в обучении модели? Можно ли цитировать его в ответах? Можно ли пересказывать без ссылки? Ответов в классической инфраструктуре веба на это просто нет.

В результате веб постепенно меняет свою роль. Он перестает быть только пространством для поиска и всё больше становится источником данных для моделей. Если раньше сайт существовал ради перехода пользователя, то теперь он всё чаще используется без клика — как сырье для генерации ответов. И это качественно новая реальность, к которой старые правила оказались не готовы.

Robots.txt: что он умеет и чего не умеет в эпоху ИИ

Robots.txt — один из самых старых и устойчивых инструментов веба. Его изначальная роль предельно прагматична: подсказать поисковым роботам, какие разделы сайта можно обходить, а какие лучше не трогать. Сюда же добавились задачи управления crawl-budget, защита технических разделов и базовая санитария сайта.

В рамках классического SEO robots.txt работает отлично. Он управляет доступом: робот либо может зайти на страницу, либо не может. Всё просто.

Проблема в том, что ИИ-агенты читают robots.txt не так однозначно. Часть из них старается учитывать его директивы, часть — игнорирует, а единого стандарта поведения просто не существует. Даже если агент формально соблюдает запреты, это всё равно не решает главный вопрос: что именно он имеет право делать с уже полученным контентом?

И здесь вскрывается фундаментальное ограничение robots.txt. Этот файл отвечает на вопрос «Можно ли зайти?», но не «Как можно использовать прочитанное?». Для поискового робота этого было достаточно. Для LLM-агента — нет.

Возникают типичные конфликтные сценарии с контентом: его можно читать, но нельзя применять для обучения модели; можно использовать в ответах, но нельзя индексировать как источник; можно резюмировать, но нельзя цитировать дословно или без указания источника. Все эти нюансы лежат за пределами возможностей robots.txt.

В итоге robots.txt остается полезным и нужным, но он больше не покрывает всего спектра взаимодействия сайта с ИИ-агентами. Это всё еще про доступ. А новая реальность — уже про правила использования контента.

LLMs.txt — что это вообще за файл

LLMs.txt — это попытка закрыть тот самый разрыв, который оставил robots.txt. Если robots.txt исторически отвечает за доступ поисковых роботов, то LLMs.txt появился как способ описать правила взаимодействия именно с ИИ-моделями и агентами. Не для индексации, а для использования контента.

Идея проста: дать сайту возможность явно заявить свою позицию. Что можно читать, что можно использовать, а что — нет. Причем отдельно от поисковых ботов, у которых свои задачи и своя логика.

Технически всё максимально приземленно. Файл размещается в корне сайта и представляет собой обычный текст. Его адресат — не только абстрактные «модели», а вполне конкретные сущности: LLM-краулеры, автономные агенты, ассистенты, AI-браузеры и всё то, что уже сегодня массово ходит по вебу без привычного User-Agent браузера.

Зачем вообще ограничивать ИИ-агентов

Первый и самый очевидный ответ: потому что не весь контент одинаково безопасен для свободного использования. У многих сайтов есть платные материалы, экспертные тексты, внутренняя документация или юридически чувствительная информация. В классической модели веба это решалось авторизацией или закрытием от индексации. В модели с ИИ-агентами этого уже недостаточно.

Риски тоже вполне прикладные. Контент могут пересказать без указания источника, вырвать фрагменты из контекста и использовать их в ответах так, что смысл будет искажен или просто утащить уникальные данные в обучающую выборку, после чего вернуть их в виде «обобщенного знания» без привязки к первоисточнику.

Есть и чисто бизнес-причина. Сайт всё чаще рискует превратиться в донора контента без трафика. Пользователь задал вопрос ИИ — получил ответ — на сайт не пришел. Формально информация использована, фактически ценность сайта, как канала коммуникации, обнулилась.

Отдельная головная боль — юридическая зона серого цвета. Можно ли использовать контент для обучения моделей? Можно ли применять его в коммерческих ответах? Где проходит граница между цитированием и переработкой? Четкого ответа на эти вопросы пока нет, и именно поэтому владельцы сайтов начинают заранее обозначать свою позицию, даже если она носит декларативный характер.

Когда, наоборот, ИИ-агентов стоит пускать

Для многих сайтов взаимодействие с ИИ-агентами может быть скорее возможностью, чем угрозой. Особенно если речь идет об экспертных, брендовых или информационных проектах. В таких случаях ИИ становится новым каналом дистрибуции контента. Упоминания в ответах ассистентов работают на узнаваемость бренда, усиливают экспертность и постепенно формируют новое поле видимости — не в поисковой выдаче, а в диалогах. По сути, это будущий аналог сниппетов, только без привычного SERP.

Если сайт системно производит качественный контент, ему часто выгоднее не прятаться, а, наоборот, помочь агентам правильно его интерпретировать и использовать. В долгосрочной перспективе это может оказаться важнее еще одной позиции в поиске.

Как LLM-агентам можно помочь

Главная идея здесь — снизить неопределенность. Чем меньше агенту приходится додумывать правила самостоятельно, тем ниже риск искажений и нежелательного использования контента. Можно явно обозначить, что разрешено читать, что допустимо использовать в ответах, а что нельзя включать вовсе. Можно подсказать, какие разделы сайта являются основными, где лежит актуальная документация, а где — справочная или второстепенная информация. Это особенно важно для сложных проектов, где без контекста легко сделать неправильные выводы. Как я уже сказал выше, LLMs.txt позволяет сайту сказать «Вот как со мной лучше работать». Это не гарантия соблюдения правил, но это сигнал. А в мире, где ИИ-агенты становятся всё более автономными, такие сигналы начинают играть всё более важную роль.

Синтаксис LLMs.txt

LLMs.txt — это текстовый файл для людей и ИИ. Никаких сложных форматов, JSON или YAML здесь нет. Главное правило: быть читаемым, чтобы любой агент мог быстро понять, что с сайтом можно делать. Официального стандарта пока не существует: нет RFC, нет обязательного парсера. Но сам факт наличия файла уже дает сигнал о намерениях владельца сайта.

Базовые директивы

User-agent — указывает, к какому ИИ-агенту применяются правила.
Allow/disallow — разрешает или запрещает доступ к разделам сайта.
Use-For-Training — можно ли использовать контент для обучения модели.
Use-For-Inference — разрешено ли включать контент в ответы.
Cite — как правильно цитировать источник, если агент использует информацию.
Contact — адрес для связи с владельцем сайта, если есть вопросы по использованию данных.

Пример простого LLMs.txt для публичного блога:

User-agent: *
Allow: /blog/
Disallow: /private/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/blog/
Contact: legal@example.com

Здесь мы разрешаем агентам читать блог и включать его в ответы, но запрещаем использовать для обучения модели. Кроме того, даем ссылку для корректного цитирования и контакт на случай вопросов.

Другой пример: сайт с документацией и платным контентом:

User-agent: *
Allow: /docs/
Disallow: /premium/
Use-For-Training: no
Use-For-Inference: no
Cite: https://example.com/docs/
Contact: ai-rules@example.com

В этом случае ИИ может видеть только публичную документацию, не включать ее в обучение и не использовать в ответах, а платный контент полностью закрыт.

И наконец, для более избирательного подхода можно задавать правила под конкретные агенты:

User-agent: ChatGPT
Allow: /blog/
Use-For-Training: no
Use-For-Inference: yes

User-agent: BingAI
Allow: /blog/
Use-For-Training: yes
Use-For-Inference: yes

То есть один агент может использовать данные только для генерации ответов, а другой — еще и для обучения.

LLMs.txt — декларация намерений. Нет формальной гарантии, что любой агент ее соблюдет, но она показывает, как вы хотите, чтобы ваш контент использовался. И в мире автономных ИИ-агентов такой сигнал становится ценным инструментом контроля.

Примеры User-agent для LLMs.txt

Общие (универсальные):

* — любой агент.
LLM-Agent — общее название экспериментальных ИИ-краулеров.

Конкретные ИИ-платформы и ассистенты:

ChatGPT — OpenAI GPT-агенты (например, ChatGPT или API-клиенты).
BingAI — интеграция Bing Chat с LLM.
Claude — агенты Anthropic.
Bard — Google Bard.
PerplexityAI — агенты Perplexity.
Mistral — агенты Mistral.
YouChat — агенты You.com.

Экспериментальные и обходные:

AI-Crawler — общий краулер ИИ.
SemanticBot — для семантических и аналитических агентов.
TrainingBot — для сбора данных на обучение.

Примеры LLMs.txt для популярных CMS

WordPress

Для WordPress типичная цель — разрешить публичный контент (блог, справка), но закрыть административные разделы и черновики. При этом желательно указать правила цитирования.

# Общие правила для всех ИИ-агентов:
User-agent: *
Allow: /blog/
Allow: /help/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /private/
Disallow: /drafts/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/blog/
Contact: legal@example.com

# Специальные правила для ChatGPT
User-agent: ChatGPT
Allow: /blog/
Allow: /help/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/blog/

Пояснения:

/blog/ и /help/ — публичный контент, разрешено включать в ответы.
/wp-admin/, /drafts/, /private/ — закрыты полностью.
Use-For-Training: no — запрещаем обучение модели на этих данных.
Cite — ссылка на источник для корректного цитирования.

Joomla

Для Joomla часто акцент делают на документации и публичных материалах, при этом закрывают служебные разделы и ограничивают обучение.

User-agent: *
Allow: /docs/
Allow: /help/
Disallow: /administrator/
Disallow: /cache/
Disallow: /tmp/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/docs/
Contact: support@example.com

User-agent: BingAI
Allow: /docs/
Use-For-Training: yes
Use-For-Inference: yes
Cite: https://example.com/docs/

Пояснения:

Публичная документация доступна для чтения и использования в ответах.
Служебные разделы (administrator, cache, tmp) полностью закрыты.
Для некоторых агентов можно разрешить обучение (Use-For-Training: yes), если это стратегически выгодно.

Bitrix

Для Bitrix стандартно более жесткая политика: закрыты личные кабинеты, B2B-контент и API. Публичные страницы разрешены, остальное — нет.

User-agent: *
Allow: /public/
Disallow: /bitrix/admin/
Disallow: /personal/
Disallow: /api/
Disallow: /crm/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/public/
Contact: webmaster@example.com

User-agent: Claude
Allow: /public/
Use-For-Training: yes
Use-For-Inference: yes
Cite: https://example.com/public/

Пояснения:

/public/ — всё, что можно показывать ИИ и использовать в ответах.
/personal/, /crm/, /api/ — закрытые разделы, недоступные для ИИ.
Можно задавать отдельные правила под конкретных агентов (например, Claude), если есть желание давать расширенный доступ.

Связка robots.txt + LLMs.txt

Robots.txt и LLMs.txt — это два разных инструмента, которые дополняют друг друга.

Robots.txt по-прежнему остается инструментом технического контроля. Он отвечает на вопрос «Может ли агент зайти на страницу?» и помогает управлять обходом сайта, crawl-budget и скрывать служебные разделы.

LLMs.txt, в свою очередь, отвечает на более новый и тонкий вопрос «Что агент может делать с контентом после того, как он был прочитан?». Разрешено ли использовать материалы для обучения, включать в ответы, цитировать источник или лучше закрыть доступ.

Когда оба файла работают вместе, сайт получает более высокий уровень контроля. Robots.txt решает технические аспекты, а LLMs.txt формулирует правила использования. Вместе это снижает двусмысленность и показывает ИИ-агентам, что сайт осознанно и стратегически управляет взаимодействием с ними.

Что делать сайту уже сейчас

Проверить robots.txt — убедиться, что служебные разделы закрыты, а публичный контент доступен. Определите, какую политику вы хотите вести: закрываться от ИИ полностью или взаимодействовать с ними.
Добавить LLMs.txt — даже если формат неофициальный, это декларация намерений. Четко укажите, что разрешено читать, что включать в ответы, что запрещено для обучения, и добавьте ссылку на источник для цитирования.
Следить за развитием стандарта — формат еще не закреплен официально, но уже активно обсуждается и поддерживается отдельными платформами. Регулярно проверяйте новости и обновления, чтобы при необходимости корректировать правила.

ИИ-агенты уже читают ваш сайт, но LLMs.txt помогает контролировать использование контента, снижает риск недопонимания и превращает новый канал ИИ в управляемый ресурс, а не в источник «бесконтрольного забора данных».