Тихая смерть robots.txt / Хабр

Десятки лет robots.txt управлял поведением веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает разваливаться на части.

Pixel illustration of a knight holding a text file as a shield.

В течение трёх десятков лет крошечный текстовый файл удерживал Интернет от падения в хаос. Этот файл не имел никакого конкретного юридического или технического веса, и даже был не особо сложным. Он представляет собой скреплённый рукопожатием договор между первопроходцами Интернета о том, что они уважают пожелания друг друга и строят Интернет так, чтобы от этого выигрывали все. Это мини-конституция Интернета, записанная в коде.

Файл называется robots.txt; обычно он находится по адресу вашвебсайт.com/robots.txt. Этот файл позволяет любому, кто владеет сайтом, будь то мелкий кулинарный блог или многонациональная корпорация, сообщить вебу, что на нём разрешено, а что нет. Какие поисковые движки могут индексировать ваш сайт? Какие архивные проекты могут скачивать и сохранять версии страницы? Могут ли конкуренты отслеживать ваши страницы? Вы сами решаете и объявляете об этом вебу.

Эта система неидеальна, но она работает. Ну, или, по крайней мере, работала. Десятки лет основной целью robots.txt были поисковые движки; владелец позволял выполнять скрейпинг, а в ответ они обещали привести на сайт пользователей. Сегодня это уравнение изменилось из-за ИИ: компании всего мира используют сайты и их данные для коллекционирования огромных датасетов обучающих данных, чтобы создавать модели и продукты, которые могут вообще не признавать существование первоисточников.

Файл robots.txt работает по принципу «ты — мне, я — тебе», но у очень многих людей сложилось впечатление, что ИИ-компании любят только брать. Сегодня в ИИ вбухано так много денег, а технологический прогресс идёт вперёд так быстро, что многие владельцы сайтов за ним не поспевают. И фундаментальный договор, лежащий в основе robots.txt и веба в целом, возможно, тоже утрачивает свою силу.

На ранних этапах развития Интернета роботов называли по-разному: пауками (spider), краулерами (crawler), червями (worm), WebAnt, веб-краулерами (web crawler). Чаще всего их создавали из благих побуждений. Обычно их разработчик хотел набрать директорию интересных новых веб-сайтов, убедиться в работоспособности его собственного веб-сайта или создать исследовательскую базу данных: это происходило примерно в 1993 году, задолго до повсеместного распространения поисковых движков, в те времена, когда бóльшая часть Интернета могла уместиться на жёстком диске компьютера.

Единственной реальной проблемой тогда был трафик: доступ к Интернету пока оставался медленным и дорогим и для посетителя веб-сайта, и для хостера. Если веб-сайт хостился на компьютере его владельца, как это часто случалось, или на серверном ПО, работающем через домашнее Интернет-соединение, то для вывода сайта из строя и получения огромного счёта за телефон достаточно было всего нескольких роботов, слишком усердно скачивающих его страницы.

В 1994 году проектировщик и разработчик ПО Мартин Костер вместе с группой веб-администраторов и веб-разработчиков за несколько месяцев придумали решение, которое назвали Robots Exclusion Protocol. Предложение было достаточно простым: веб-разработчики могли добавлять в свои домены текстовый файл, указывающий, какие роботы могут исследовать сайт, или перечисляющий страницы, недоступные всем роботам. (В то время можно было составить список всех существующих роботов; Костер с коллегами именно так и поступили.) Для создателей роботов сделка была ещё более простой: достаточно было уважать пожелания из текстового файла.

С самого начала Костер объяснил, что он не ненавидит роботов и не стремится от них избавиться. «Роботы — один из тех аспектов веба, которые вызывают эксплуатационные проблемы и напрягает людей», — написал он в начале 1994 года в список рассылки WWW-Talk (в котором участвовали такие пионеры раннего Интернета, как Тим Бернерс-Ли и Марк Андриссен). «В то же время они приносят пользу». Костер призывал не спорить о пользе или вреде роботов, потому что они всё равно никуда не исчезнут. Он просто пытался спроектировать систему, которая сможет «минимизировать проблемы и максимизировать преимущества».

К лету того же года его предложение превратилось в стандарт; не официальный, но более-менее общепринятый. В июне Костер опубликовал в группе WWW-Talk дополнение. «Если вкратце, то это способ отвадить роботов от определённых частей пространства URL веб-сервера при помощи простого текстового файла. Это особенно полезно, если у вас есть большие архивы, скрипты CGI с огромными поддеревьями URL, временная информация или если вы просто не хотите обслуживать роботов». Он создал список рассылки по этой теме, в которой его участники согласовали базовый синтаксис и структуру этих текстовых файлов, изменили имя файла с RobotsNotWanted.txt на простое robots.txt и договорились поддерживать его.

В течение последующих неполных тридцати лет всё это достаточно неплохо работало.

Но Интернет сегодня уже не поместится на жёсткий диск, а роботы стали гораздо мощнее. Google использует их для краулинга и индексирования всего веба для своего поискового движка, ставшего интерфейсом веба и приносящего компании миллиарды долларов в год. Краулеры Bing ведут себя так же, а Microsoft продаёт лицензии на свою базу данных другим поисковым движкам и компаниям. Internet Archive использует краулер для сохранения веб-страниц на будущее. Краулеры Amazon бродят по вебу в поисках информации о товарах; согласно недавнему антимонопольному судебному делу, компания использует эту информацию, чтобы наказывать продавцов, предлагающих более выгодные условия на других площадках. ИИ-компании наподобие OpenAI выполняют краулинг веба для обучения больших языковых моделей, которые снова могут фундаментально изменить способы доступа к информации и обмена ею.

Способность скачивать, хранить и упорядочивать современный Интернет позволяет современной компании или разработчику работать со своего рода накопленными знаниями всего мира. За последний год рост ИИ-продуктов наподобие ChatGPT и лежащих в их основе больших языковых моделей превратил высококачественные данные в один из самых ценных ресурсов Интернета. Это заставило провайдеров Интернета переосмыслить ценность данных на их серверах и то, кто может получать к ним доступ. Если ограничивать доступ слишком слабо, то веб-сайт потеряет всю свою ценность, если слишком сильно, то он станет невидим в поисковиках. И владельцам нужно постоянно делать этот выбор с новыми компаниями, новыми партнёрами и новыми рисками.

Существует несколько разновидностей Интернет-роботов. Можно создать совершенно невинного робота для проверки того, что все ссылки на ваших страницах всё ещё ведут на живые страницы; можно отправить в свободное плавание чуть более опасного, ищущего любые почтовые адреса и номера телефонов. Но больше всего распространён и вызывает больше всего споров обычный веб-краулер. Его задача — находить и скачивать максимально возможные объёмы данных из Интернета.

В общем случае веб-краулеры довольно просты. Они начинают с хорошо известного веб-сайта, например, cnn.com, wikipedia.org или health.gov. (Владельцы поисковых движков общего пользования начинают со множества высококачественных доменов, охватывающих различные темы; если кого-то интересует спорт или автомобили, то он просто начинает с автомобильных сайтов.) Краулер скачивает эту первую страницу и сохраняет её куда-нибудь, затем автоматически нажимает на каждую ссылку с этой страницы, скачивает их все, нажимает на ссылки на каждой и таким образом распространяется по вебу. Имея достаточно времени и вычислительных ресурсов, краулер постепенно найдёт и скачает миллиарды веб-страниц.

По оценкам Google, на 2019 год было приблизительно 500 миллионов веб-сайтов со страницей robots.txt, указывающей, к чему могут иметь доступ эти краулеры. Структура этих страниц более-менее одинакова: на ней указано имя User-agent, то есть имя, которое краулер сообщает при идентификации на сервере. Агент Google называется Googlebot; агент Amazon — Amazonbot; агент Bing — Bingbot; агент OpenAI — GPTBot. У Pinterest, LinkedIn, Twitter и множества других сайтов есть собственные боты, но не все они упоминаются на каждой странице. (Особенно тщательно к учёту роботов подходят Wikipedia и Facebook.) Внутри страницы robots.txt перечислены разделы или страницы сайта, к которым не разрешён доступ указанного агента, и конкретные исключения, к которым доступ разрешён. Если на странице написано только Disallow: /, то краулеру запрещено всё.

Для большинства людей проблема «перегруженных роботами серверов» уже довольно давно потеряла свою актуальность. «Сегодня вопрос обычно не в используемых на веб-сайте ресурсах, а в личных предпочтениях. Что вы разрешаете краулить и индексировать, а что нет», — рассказывает поисковый юрист компании Google Джон Мюллер.

В прошлом самым важным вопросом для большинства владельцев веб-сайтов заключался в том, разрешать ли Googlebot выполнять краулинг сайта. Принцип взаимообмена здесь прост: если Google сможет выполнить краулинг вашей страницы, то проиндексирует её и отобразит в результатах поиска. Если вы хотите, чтобы вашу страницу могли загуглить, то её должен увидеть Googlebot. (Как и где Google на самом деле отображает эту страницу в результатах поиска — это, разумеется, совершенно отдельная история.) Вопрос в том, хотите ли вы, чтобы Google отъел часть ширины вашего канала и скачал копию вашего сайта в обмен на отображение в поиске.

Большинство веб-сайтов отвечало на этот вопрос без раздумий. «Google — наш самый важный паук», — рассказывает CEO Medium Тони Стаблбайн. Google скачивает все страницы Medium, «и взамен мы получаем существенный объём трафика. Выигрывают обе стороны. И так считают все». Такую сделку Google заключила со всем Интернетом: она направляет трафик на другие веб-сайты, параллельно продавая рекламу в соответствии с результатами поиска. И Google, по общему мнению, прилежно соблюдала требования robots.txt. «Почти все известные поисковые движки соблюдают их. Они с охотно выполняют краулинг веба, но не хотят напрягать этим владельцев сайтов... это упрощает всем жизнь», — делится Мюллер.

Однако примерно за последний год развитие ИИ положило конец этому балансу. Многим издателям и платформам краулинг их данных для обучения больше казался не обменом, а кражей. «Мы довольно быстро выяснили, что это не просто не было равноценным обменом, но и мы вообще не получали взамен. Буквально ноль», — объясняет Стаблбайн. В своём осеннем заявлении о том, что Medium будет блокировать все ИИ-краулеры, он написал, что «ИИ-компании крадут ценность у авторов, чтобы спамить читателей».

За прошедшее время такие настроения стала разделять большая доля представителей медиа-индустрии. «Мы не считаем, что современный "скрейпинг" данных BBC без нашего разрешения для обучения моделей генеративного ИИ происходит в интересах общества», — писал прошлой осенью директор национальных подразделений BBC Родри Талфан Дэвис, заявив о том, что BBC тоже будет блокировать краулер OpenAI. The New York Times тоже заблокировала GPTBot; спустя несколько месяцев газета подала иск против OpenAI, утверждая, что модели OpenAI «разработаны для копирования и использования миллионов защищённых авторским правом новостных статей The Times, расследований, мнений, обзоров, инструкций и так далее». Исследование Бена Уэлша, работающего редактором новостей Reuters, показало, что 606 из 1156 опрошенных издателей заблокировало GPTBot в файле robots.txt.

И это касается не только издателей: Amazon, Facebook, Pinterest, WikiHow, WebMD и множество других платформ в явном виде частично или полностью запрещают GPTBot доступ к своим веб-сайтам. На большинстве таких страниц robots.txt GPTBot компании OpenAI остаётся единственным краулером, доступ которого явно и полностью запрещён. Но есть и множество других связанных с ИИ ботов, которые начинают заниматься краулингом веба, например, anthropic-ai компании Anthropic и новый Google-Extended компании Google’s. Согласно проведённому осенью Originality.AI исследованию, 306 из 1000 самых популярных веб-сайтов заблокировало GPTBot, но только 85 заблокировало Google-Extended и 28 заблокировало anthropic-ai.

Существуют также краулеры, предназначенные и для веб-поиска, и для ИИ. CCBot, выпущенный организацией Common Crawl, рыскает по вебу в поисках данных для поискового движка, но его данные также используют для обучения своих моделей OpenAI, Google и другие компании. Bingbot компании Microsoft — это и краулер поисковика, и ИИ-краулер. И это лишь те краулеры, которые идентифицируют себя — многие другие пытаются работать в относительной секретности, из-за чего их сложно остановить и даже найти в море другого веб-трафика. Любому достаточно популярному веб-сайту обнаружить скрытный краулер так же трудно, как найти иголку в стоге сена.

GPTBot стал главным злодеем robots.txt во многом из-за того, что OpenAI допустила это. Компания опубликовала и рекламировала страницу о том, как блокировать GPTBot и сделала так, чтобы краулер громко идентифицировал себя каждый раз, когда он заходит на веб-сайт. Разумеется, всё это она сделала уже после обучения моделей, и только тогда, когда уже стала важной частью технологической экосистемы. Но гендиректор по стратегии OpenAI Джейсон Квон говорит, что в этом-то и смысл: «Наша компания — один из игроков в экосистеме. Если вы хотите участвовать в этой экосистеме открытым образом, то это взаимообмен, в котором заинтересованы все». По его словам, без такого обмена веб начнёт замыкаться, а это плохо и для OpenAI, и для всех остальных. «Мы делаем это для того, чтобы веб мог оставаться открытым».

По умолчанию Robots Exclusion Protocol всегда был разрешительным. Он, как и Костер тридцать лет назад, исходит из того, что роботы в большинстве своём хорошие и созданы хорошими людьми, поэтому по умолчанию их разрешает. По большому счёту, это было правильное решение. «Я считаю, что Интернет в основе своей — общественное творение, и это соглашение, сохранявшееся в течение нескольких десятков лет, похоже, работало», — говорит Квон. По его словам, роль OpenAI в соблюдении этого соглашения включает и бесплатную доступность ChatGPT для большинства пользователей, позволяющая вернуть обществу его вклад, а также соблюдение правил для роботов.

Но robots.txt — это не юридический документ, и спустя тридцать лет после его создания он по-прежнему полагается на добрую волю всех участвующих сторон. Запрет бота на странице robots.txt напоминает надпись «девчонкам вход запрещён» в домике на дереве; он передаёт посыл, но в суде никакой силы не имеет. Любой краулер, желающий игнорировать robots.txt, может так и поступить, не боясь при этом практически никаких последствий. Например, Internet Archive в 2017 году просто заявил о том, что больше не придерживается правил robots.txt. «Мы уже долгое время видим, что файлы robots.txt, предназначенные для краулеров поисковых движков, не всегда служат нашим задачам архивирования», — так писал в то время директор Wayback Machine Марк Грэм. И на этом всё.

ИИ-компании продолжают множиться, а их краулеры становятся всё более беспринципными, поэтому те, кто хочет переждать процесс развития ИИ, вынужден играть в бесконечную игру в прятки. Им приходится создавать запреты для каждого робота и краулера по отдельности, если это вообще возможно, в то же время сталкиваясь с побочными эффектами. Если ИИ и на самом деле станет будущим для поисковых запросов, как прогнозирует Google и другие компании, то блокирование ИИ-краулеров будет выигрышем в ближней перспективе, но катастрофой в дальней.

По обе стороны есть люди, считающие, что нам нужны более качественные, мощные и строгие инструменты для работы с краулерами. Они утверждают, что на кону слишком большие деньги, слишком много новых нерегулируемых сценариев использования для того, что просто полагаться на порядочность всех участников. «Хоть у многих акторов есть свои правила по использованию краулеров, эти правила в целом слишком слабы, а их соблюдение слишком сложно отслеживать», — писали два юриста в своей статье 2019 года о легальности веб-краулеров.

Некоторым издателям хочется иметь более детальный контроль над тем, краулинг какой именно информации выполняется и для чего она используется. Google, несколько лет назад предпринявшая попытки к тому, чтобы Robots Exclusion Protocol стал официальным формализованным стандартом, также пыталась снизить важность robots.txt, исходя из того, что это старый стандарт и многие сайты не уделяют ему внимания. «Мы понимаем, что существующие инструменты контроля веб-издателей были разработаны до того, как краулеры начали применять для создания ИИ и исследований. И считаем, что настало время для того, чтобы веб и сообщества разработчиков ИИ начали исследовать дополнительные машиночитаемые средства управления, учитывающие это».

Даже несмотря на то, что ИИ-компании сталкиваются с нормативными и юридическими вопросами о том, как они создают и обучают свои модели, эти модели продолжают совершенствоваться, а новые компании, похоже, появляются каждый день. Веб-сайты вынуждены принять решение: подчиниться революции ИИ или оказать сопротивление. Самым сильным оружием тех, кто решил бороться, остаётся соглашение, заключённое три десятка лет назад первыми и наиболее оптимистичными сторонниками веба. Они верили, что Интернет — это хорошее место, в котором находятся хорошие люди, и больше всего они хотели, чтобы Интернет был чем-то хорошим. В том мире и в том Интернете вполне было достаточно изложить свои желания в простом текстовом файле. Сегодня же, когда ИИ полностью меняет культуру и экономику Интернета, скромный текстовый файл уже начинает казаться слишком старомодным.

Тихая смерть robots.txt

Публикации

Информация