Еще пару лет назад веб жил в простой и понятной модели: есть сайты, есть поисковые роботы, есть пользователи. Роботы приходят, сканируют страницы, кладут их в индекс — дальше начинается привычная борьба за позиции в выдаче. Эта логика десятилетиями определяла, как мы строим сайты, настраиваем SEO и пишем robots.txt.
С появлением LLM-агентов эта модель начала трещать по швам.
Я более 10 лет занимаюсь аналитикой, SEO и управлением командами в digital‑маркетинге. А в своем Телеграм канале пишу еще больше про всякое из реального маркетинга. Консультирую по аналитике web‑проектов и настройке инструментов маркетинга, помогаю проводить технические собеседования специалистов по различным типам трафика.
Поисковые роботы и ИИ-агенты — это принципиально разные сущности. Классический бот поисковика интересуется структурой сайта и содержимым страницы ровно в той степени, в которой это нужно для индексации и ранжирования. Его задача — понять, о чём страница, и решить, стоит ли показывать ее пользователю в поиске.
LLM-агенты работают иначе. Они не ограничиваются индексацией. Они читают контент целиком, пересказывают его, комбинируют с другими источниками и используют как материал для ответов пользователям. Для них сайт — это кусок базы знаний.
И тут выясняется, что привычные инструменты веба решают лишь часть задач. Robots.txt отлично подходит для управления доступом к страницам, но он никак не отвечает на вопрос, что именно можно делать с контентом после того, как он был прочитан. Можно ли использовать текст в обучении модели? Можно ли цитировать его в ответах? Можно ли пересказывать без ссылки? Ответов в классической инфраструктуре веба на это просто нет.
В результате веб постепенно меняет свою роль. Он перестает быть только пространством для поиска и всё больше становится источником данных для моделей. Если раньше сайт существовал ради перехода пользователя, то теперь он всё чаще используется без клика — как сырье для генерации ответов. И это качественно новая реальность, к которой старые правила оказались не готовы.
Robots.txt: что он умеет и чего не умеет в эпоху ИИ
Robots.txt — один из самых старых и устойчивых инструментов веба. Его изначальная роль предельно прагматична: подсказать поисковым роботам, какие разделы сайта можно обходить, а какие лучше не трогать. Сюда же добавились задачи управления crawl-budget, защита технических разделов и базовая санитария сайта.
В рамках классического SEO robots.txt работает отлично. Он управляет доступом: робот либо может зайти на страницу, либо не может. Всё просто.
Проблема в том, что ИИ-агенты читают robots.txt не так однозначно. Часть из них старается учитывать его директивы, часть — игнорирует, а единого стандарта поведения просто не существует. Даже если агент формально соблюдает запреты, это всё равно не решает главный вопрос: что именно он имеет право делать с уже полученным контентом?
И здесь вскрывается фундаментальное ограничение robots.txt. Этот файл отвечает на вопрос «Можно ли зайти?», но не «Как можно использовать прочитанное?». Для поискового робота этого было достаточно. Для LLM-агента — нет.
Возникают типичные конфликтные сценарии с контентом: его можно читать, но нельзя применять для обучения модели; можно использовать в ответах, но нельзя индексировать как источник; можно резюмировать, но нельзя цитировать дословно или без указания источника. Все эти нюансы лежат за пределами возможностей robots.txt.
В итоге robots.txt остается полезным и нужным, но он больше не покрывает всего спектра взаимодействия сайта с ИИ-агентами. Это всё еще про доступ. А новая реальность — уже про правила использования контента.
LLMs.txt — что это вообще за файл
LLMs.txt — это попытка закрыть тот самый разрыв, который оставил robots.txt. Если robots.txt исторически отвечает за доступ поисковых роботов, то LLMs.txt появился как способ описать правила взаимодействия именно с ИИ-моделями и агентами. Не для индексации, а для использования контента.
Идея проста: дать сайту возможность явно заявить свою позицию. Что можно читать, что можно использовать, а что — нет. Причем отдельно от поисковых ботов, у которых свои задачи и своя логика.
Технически всё максимально приземленно. Файл размещается в корне сайта и представляет собой обычный текст. Его адресат — не только абстрактные «модели», а вполне конкретные сущности: LLM-краулеры, автономные агенты, ассистенты, AI-браузеры и всё то, что уже сегодня массово ходит по вебу без привычного User-Agent браузера.
Зачем вообще ограничивать ИИ-агентов
Первый и самый очевидный ответ: потому что не весь контент одинаково безопасен для свободного использования. У многих сайтов есть платные материалы, экспертные тексты, внутренняя документация или юридически чувствительная информация. В классической модели веба это решалось авторизацией или закрытием от индексации. В модели с ИИ-агентами этого уже недостаточно.
Риски тоже вполне прикладные. Контент могут пересказать без указания источника, вырвать фрагменты из контекста и использовать их в ответах так, что смысл будет искажен или просто утащить уникальные данные в обучающую выборку, после чего вернуть их в виде «обобщенного знания» без привязки к первоисточнику.
Есть и чисто бизнес-причина. Сайт всё чаще рискует превратиться в донора контента без трафика. Пользователь задал вопрос ИИ — получил ответ — на сайт не пришел. Формально информация использована, фактически ценность сайта, как канала коммуникации, обнулилась.
Отдельная головная боль — юридическая зона серого цвета. Можно ли использовать контент для обучения моделей? Можно ли применять его в коммерческих ответах? Где проходит граница между цитированием и переработкой? Четкого ответа на эти вопросы пока нет, и именно поэтому владельцы сайтов начинают заранее обозначать свою позицию, даже если она носит декларативный характер.
Когда, наоборот, ИИ-агентов стоит пускать
Для многих сайтов взаимодействие с ИИ-агентами может быть скорее возможностью, чем угрозой. Особенно если речь идет об экспертных, брендовых или информационных проектах. В таких случаях ИИ становится новым каналом дистрибуции контента. Упоминания в ответах ассистентов работают на узнаваемость бренда, усиливают экспертность и постепенно формируют новое поле видимости — не в поисковой выдаче, а в диалогах. По сути, это будущ��й аналог сниппетов, только без привычного SERP.
Если сайт системно производит качественный контент, ему часто выгоднее не прятаться, а, наоборот, помочь агентам правильно его интерпретировать и использовать. В долгосрочной перспективе это может оказаться важнее еще одной позиции в поиске.
Как LLM-агентам можно помочь
Главная идея здесь — снизить неопределенность. Чем меньше агенту приходится додумывать правила самостоятельно, тем ниже риск искажений и нежелательного использования контента. Можно явно обозначить, что разрешено читать, что допустимо использовать в ответах, а что нельзя включать вовсе. Можно подсказать, какие разделы сайта являются основными, где лежит актуальная документация, а где — справочная или второстепенная информация. Это особенно важно для сложных проектов, где без контекста легко сделать неправильные выводы. Как я уже сказал выше, LLMs.txt позволяет сайту сказать «Вот как со мной лучше работать». Это не гарантия соблюдения правил, но это сигнал. А в мире, где ИИ-агенты становятся всё более автономными, такие сигналы начинают играть всё более важную роль.
Синтаксис LLMs.txt
LLMs.txt — это текстовый файл для людей и ИИ. Никаких сложных форматов, JSON или YAML здесь нет. Главное правило: быть читаемым, чтобы любой агент мог быстро понять, что с сайтом можно делать. Официального стандарта пока не существует: нет RFC, нет обязательного парсера. Но сам факт наличия файла уже дает сигнал о намерениях владельца сайта.
Базовые директивы
User-agent — указывает, к какому ИИ-агенту применяются правила.
Allow/disallow — разрешает или запрещает доступ к разделам сайта.
Use-For-Training — можно ли использовать контент для обучения модели.
Use-For-Inference — разрешено ли включать контент в ответы.
Cite — как правильно цитировать источник, если агент использует информацию.
Contact — адрес для связи с владельцем сайта, если есть вопросы по использованию данных.
Пример простого LLMs.txt для публичного блога:
User-agent: * Allow: /blog/ Disallow: /private/ Use-For-Training: no Use-For-Inference: yes Cite: https://example.com/blog/ Contact: legal@example.com
Здесь мы разрешаем агентам читать блог и включать его в ответы, но запрещаем использовать для обучения модели. Кроме того, даем ссылку для корректного цитирования и контакт на случай вопросов.
Другой пример: сайт с документацией и платным контентом:
User-agent: * Allow: /docs/ Disallow: /premium/ Use-For-Training: no Use-For-Inference: no Cite: https://example.com/docs/ Contact: ai-rules@example.com
В этом случае ИИ может видеть только публичную документацию, не включать ее в обучение и не использовать в ответах, а платный контент полностью закрыт.
И наконец, для более избирательного подхода можно задавать правила под конкретные агенты:
User-agent: ChatGPT Allow: /blog/ Use-For-Training: no Use-For-Inference: yes User-agent: BingAI Allow: /blog/ Use-For-Training: yes Use-For-Inference: yes
То есть один агент может использовать данные только для генерации ответов, а другой — еще и для обучения.
LLMs.txt — декларация намерений. Нет формальной гарантии, что любой агент ее соблюдет, но она показывает, как вы хотите, чтобы ваш контент использовался. И в мире автономных ИИ-агентов такой сигнал становится ценным инструментом контроля.
Примеры User-agent для LLMs.txt
Общие (универсальные):
* — любой агент.
LLM-Agent — общее название экспериментальных ИИ-краулеров.
Конкретные ИИ-платформы и ассистенты:
ChatGPT — OpenAI GPT-агенты (например, ChatGPT или API-клиенты).
BingAI — интеграция Bing Chat с LLM.
Claude — агенты Anthropic.
Bard — Google Bard.
PerplexityAI — агенты Perplexity.
Mistral — агенты Mistral.
YouChat — агенты You.com.
Экспериментальные и обходные:
AI-Crawler — общий краулер ИИ.
SemanticBot — для семантических и аналитических агентов.
TrainingBot — для сбора данных на обучение.
Примеры LLMs.txt для популярных CMS
WordPress
Для WordPress типичная цель — разрешить публичный контент (блог, справка), но закрыть административные разделы и черновики. При этом желательно указать правила цитирования.
# Общие правила для всех ИИ-агентов: User-agent: * Allow: /blog/ Allow: /help/ Disallow: /wp-admin/ Disallow: /wp-login.php Disallow: /private/ Disallow: /drafts/ Use-For-Training: no Use-For-Inference: yes Cite: https://example.com/blog/ Contact: legal@example.com # Специальные правила для ChatGPT User-agent: ChatGPT Allow: /blog/ Allow: /help/ Use-For-Training: no Use-For-Inference: yes Cite: https://example.com/blog/
Пояснения:
/blog/ и /help/ — публичный контент, разрешено включать в ответы.
/wp-admin/, /drafts/, /private/ — закрыты полностью.
Use-For-Training: no — запрещаем обучение модели на этих данных.
Cite — ссылка на источник для корректного цитирования.
Joomla
Для Joomla часто акцент делают на документации и публичных материалах, при этом закрывают служебные разделы и ограничивают обучение.
User-agent: * Allow: /docs/ Allow: /help/ Disallow: /administrator/ Disallow: /cache/ Disallow: /tmp/ Use-For-Training: no Use-For-Inference: yes Cite: https://example.com/docs/ Contact: support@example.com User-agent: BingAI Allow: /docs/ Use-For-Training: yes Use-For-Inference: yes Cite: https://example.com/docs/
Пояснения:
Публичная документация доступна для чтения и использования в ответах.
Служебные разделы (administrator, cache, tmp) полностью закрыты.
Для некоторых агентов можно разрешить обучение (Use-For-Training: yes), если это стратегически выгодно.
Bitrix
Для Bitrix стандартно более жесткая политика: закрыты личные кабинеты, B2B-контент и API. Публичные страницы разрешены, остальное — нет.
User-agent: * Allow: /public/ Disallow: /bitrix/admin/ Disallow: /personal/ Disallow: /api/ Disallow: /crm/ Use-For-Training: no Use-For-Inference: yes Cite: https://example.com/public/ Contact: webmaster@example.com User-agent: Claude Allow: /public/ Use-For-Training: yes Use-For-Inference: yes Cite: https://example.com/public/
Пояснения:
/public/ — всё, что можно показывать ИИ и использовать в ответах.
/personal/, /crm/, /api/ — закрытые разделы, недоступные для ИИ.
Можно задавать отдельные правила под конкретных агентов (например, Claude), если есть желание давать расширенный доступ.
Связка robots.txt + LLMs.txt
Robots.txt и LLMs.txt — это два разных инструмента, которые дополняют друг друга.
Robots.txt по-прежнему остается инструментом технического контроля. Он отвечает на вопрос «Может ли агент зайти на страницу?» и помогает управлять обходом сайта, crawl-budget и скрывать служебные разделы.
LLMs.txt, в свою очередь, отвечает на более новый и тонкий вопрос «Что агент может делать с контентом после того, как он был прочитан?». Разрешено ли использовать материалы для обучения, включать в ответы, цитировать источник или лучше закрыть доступ.
Когда оба файла работают вместе, сайт получает более высокий уровень контроля. Robots.txt решает технические аспекты, а LLMs.txt формулирует правила использования. Вместе это снижает двусмысленность и показывает ИИ-агентам, что сайт осознанно и стратегически управляет взаимодействием с ними.
Что делать сайту уже сейчас
Проверить robots.txt — убедиться, что служебные разделы закрыты, а публичный контент доступен. Определите, какую политику вы хотите вести: закрываться от ИИ полностью или взаимодействовать с ними.
Добавить LLMs.txt — даже если формат неофициальный, это декларация намерений. Четко укажите, что разрешено читать, что включать в ответы, что запрещено для обучения, и добавьте ссылку на источник для цитирования.
Следить за развитием стандарта — формат еще не закреплен официально, но уже активно обсуждается и поддерживается отдельными платформами. Регулярно проверяйте новости и обновления, чтобы при необходимости корректировать правила.
ИИ-агенты уже читают ваш сайт, но LLMs.txt помогает контролировать использование контента, снижает риск недопонимания и превращает новый канал ИИ в управляемый ресурс, а не в источник «бесконтрольного забора данных».

