denis-19 Oct 1 2023 at 07:40

Google представила токен Google-Extended для файла robots.txt, который отключает использование сайта для обучения ИИ

1 min

4.4K

Website development*Search engines*Cloud computing*Artificial Intelligence

Comments 41

Komei Oct 1 2023 at 10:13

Пример очередного лицемерия от Гугл и ко. Ну впрочем как и всегда.

Поясню: вместо того, чтобы прямо давать разрешение на использования данных МОЕГО сайта в обучении ИХ ИИ модели, как было бы правильно, я должен отслеживать каждую такую компанию, разбираться в их ключах, агентах и т.п. После чего своевременно менять настройки своего сайта каждый раз, как появился очередной разработчик ИИ.

И вот это вот нам преподносится как великая победа. Нет уж, спасибо.

+16

NeoCode Oct 1 2023 at 11:06

Если вы выкладываете что-то в Интернет, оно становится уже не совсем "вашим". Кто-то в обычном браузере посмотрит и забудет, кто-то сохранит страничку себе в личную коллекцию (я вот например так часто делаю с ценной информацией), кто-то парсером распарсит, а кто-то и искусственным интеллектом (и это совсем не обязательно должен быть Гугл... может к примеру есть какие-то хакеры-энтузиасты, поднимающие свои нейросети для своего личного использования, а вы и не знаете)

+19

rsashka Oct 1 2023 at 12:05

Вы либо сами не понимаете, либо намеренно путаете "посмотреть и сохранить для себя в личных целях" и "сохранить для коммерческого использования".

И это не говоря про то, что robots.txt, это всего лишь рекомендация, которую сам же Гугл может с легкостью игнорировать.

NeoCode Oct 1 2023 at 13:04

Грань между личным и коммерческим использованием очень тонкая. Вот чтение Хабра - это личное или коммерческое? Может я для души читаю, а может чтобы лучше работу на работе работать...

А Гугл и так коммерчески использует ваши сайты. Вы создаете полезную информацию, она попадает в выдачу, вместе с рекламой, деньги от рекламы идут Гуглу.

kudrbudr Oct 1 2023 at 21:49

Гугл продаёт рекламу, но не информации сайтов, трафик перенаправляется конечному сайту. Баланс интересов сохранен, не говоря уже про "где коммерческое?".

Сейчас же, гугл (и тому подобные) как управляющий моста начал копировать информацию вебмастеров, и напрямую монетизировать посетителей исключая источника информации.

Проще говоря из каталога ссылок превращается в умный агрегатор контента за бабло (в будущем). Ваша логика "мягко" говоря убого.

wolfer Oct 2 2023 at 16:55

нет, не путает. Данные вашего сайта уже используются для коммерческого использования. Любой поисковик индексирует ваш сайт не чтобы помочь человечеству, а с целью получения коммерческой выгоды. А если ваш сайт имеет внушительную аудиторию и функционал комментирования, то по вашему сайту ещё и строятся аналитические обзоры, которые тоже продаются за деньги.

Замените в вашем исходном сообщении "обучение ИИ модели" на "поисковую индексацию" и найдите хотя бы пару различий

Hardcoin Oct 1 2023 at 13:31

Если Гугл собирается учитывать роботс, то есть собирается уважать права владельцев сайтов, но что же ему мешает не трогать сайты, которые не дали явного разрешения? Кроме того, что это невыгодно.

Мысль, что контент "не совсем" ваш могла быть уместна, если бы Гугл в любом случае забирал бы контент. Почему, по мнению Гугла, если я поставил явный запрет, то контент мой, а если не дал явного разрешения, то "не совсем" мой?

DiSha Oct 1 2023 at 15:45

По умолчанию сайт отдает 200 ОК, запретов доступа нет. Весь интернет работает по принципу "можно, если не сказано обратное".

Это и есть инструмент ограничения доступа. Используйте.

freeExec Oct 2 2023 at 15:47

200 ОК это вообще про работу протокола и к содержимому никакого отношения не имеет.
При скачке пиратского фильма мне тоже 200 ОК пишут, значит ли это что-то?

DiSha Oct 2 2023 at 20:12

Вы размещаете сайт. Клиент делает запрос и получает 200 ОК. По умолчанию, обычно, этот ответ получают все клиенты, включая поисковых ботов. Если вы так хотите то можете отдавать 403.

Вам же никто не запрещает не обслуживать определенную часть клиентов? К примеру ботов. Закрывайте сайт и все. В чем проблема?

Сравнение с пиратским фильмом вообще некорректно, это заведомо нарушение.

-1

freeExec Oct 2 2023 at 21:06

Заведомо нарушение, это использовать материал не имея на то правовых оснований. А они получаются на основе лицензий либо ещё каких правовых инструментов, а не технических ответов интернета.
Ну не нравится вам фильмы, давай зайдём на гитхаб и посмотрим, что же разрешает нам использовать открытый код, файл LICENSE или ответ гитхаба 200 ?

Hardcoin Oct 2 2023 at 16:20

То есть, если сайт отдал 200, то контент свободный? Фильмы, книги, код, всё, отказывается, свободное, если нет ограничения доступа?

Ничего подобного. Лицензии тоже 200 ОК отдают, из требуется соблюдать. Именно в них и сказано обратное. А может ли робот Гугла прочитать и понять лицензию - это его проблемы.

DiSha Oct 3 2023 at 21:30

Лицензии указываются для людей, не для роботов (хотя, уже есть возможность указывать лицензию для изображений). Для ограничения доступа роботов как раз и служит robots.txt

То чтобы боты читали какой то файл лицензии это не более чем ваша хотелка. Возможно в будущем так и будет, но пока что есть такой инструмент.

-1

Hardcoin Oct 3 2023 at 22:02

Чтобы я указывал robots.txt - это не более, чем хотелка Гугла. В законе нет специального исключения, которое дает Гуглу права на мой контент, если я robots не заполнил. Инструмент не "есть". Его выдумал Гугл и пытается сделать вид, что он обязательный. Большая корпорация заменяет собой законодательную власть, это крайне плохо.

DiSha Oct 4 2023 at 21:54

В каком законе? Вы сначала говорите про лицензию, теперь про закон. Вы определитесь уже.

Вам дали инструмент ограничения доступа, не выдуманный а общепризнанный, с соответствующим RFC. Но вы в упор не хотите его использовать считая что кто то должен следовать вашим хотелкам. Открою секрет -- всем начхать на ваши хотелки. Или вы из условного РКН и считаете, что все вокруг во всем мире должны исполнять ваши кривые законы? В общем удачи. Можете влипить очередной минус, вам от этого станет легче.

-1

Hardcoin Oct 5 2023 at 10:47

Вы сначала говорите про лицензию, теперь про закон. Вы определитесь уже.

Существование лицензий гарантирует закон. В нем написано про лицензии (вы обязаны их соблюдать, если пользуетесь контентом). Но в нём не написано про robots (вы не обязаны его делать, что бы лицензии продолжали работать).

То есть, гугл обязан соблюдать лицензию и если там написано, что нельзя использовать для ИИ - он не имеет права использовать. А я НЕ обязан соблюдать robots. И если его нет на сайте, гугл всё равно не имеет права использовать мой контент.

должен следовать вашим хотелкам.

Вы реально путаете RFC и закон. Закон для вас - хотелка почему-то.

ваши кривые законы

Американские законы Гугл обязан соблюдать. Кривые они или не кривые.

Можете влипить очередной минус, вам от этого станет легче.

Аккаунты с кармой меньше пяти не могут ставить минусы.

fxvinhuocbbmxzg Oct 1 2023 at 12:34

Выложил в сеть, все уже публичное

kAIST Oct 1 2023 at 20:22

Если контент публичный, это не значит что с ним можно делать все что угодно.

MountainGoat Oct 1 2023 at 13:23

А что, создатели ИИ должны анализировать каждую страницу в интернете, искать автора и получать разрешение? Получается, команда для создания ИИ должна состоять из одного айтишника и миллиона секретарей?

Если не хотите, чтобы ваш контент сканировали, показывайте его только зарегистрированным пользователям.

Hardcoin Oct 1 2023 at 13:34

А почему нет? Если я хочу выпустить справочник медицинских диагнозов всего города, можно применить вашу логику? Не нанимать же мне миллион секретарей, что бы собирать разрешения на публикацию с каждого? Лучше опубликую в газете правила, по которым каждый сможет отказаться от публикации своей истории болезни, если хочет. Тогда я, как и разработчик ИИ, сэкономлю на секретарях.

NeoCode Oct 1 2023 at 19:06

Только вот медицинские диагнозы - это изначально и по закону приватные данные, а ваш сайт - изначально нет (ну или делайте его приватным, с доступом только для избранных по паролю, как выше предлагали)

rsashka Oct 1 2023 at 20:02

У каждого сайта есть (или может быть по желанию его автора) правила его использования. Это тоже по закону, и причем без всяких входов по паролю или приватного доступа только для избранных.
Поэтому прежде чем что либо использовать в коммерческих целях, вы обязан убедиться в возможности этого, а не "нашел данные в интернете, поэтому что хочу с ними, то и делаю".

Hardcoin Oct 1 2023 at 23:20

Это просто иллюстрация к теме. Если Гугл считает данные на всех сайтах свободными, зачем профанация в виде возможности запретить использование данных со своего сайта? Просто использовали бы, раз это не приватные данные.

Однако они явно понимают, что законы-то уже есть. Просто хотят ввести свои дополнительные правила. Якобы законов недостаточно, нужно ещё правила частной корпорации соблюдать, иначе твои данные - это их данные.

vikarti Oct 3 2023 at 12:53

Есть ньюанс — врачи вполне себе оные диагнозы, чем лечили и что вышло публикуют. И давно. Особенно если это редкий диагноз или чем то существенно отличается.
В научных статьях и приняв меры чтобы нельзя было посторонним идентифицировать конкретных личностей с этим диагнозом.
Потому что это все нужно для прогресса медицины.

santjagocorkez Oct 3 2023 at 05:06

Ты только что биометрию.

vikarti Oct 3 2023 at 13:00

С одной стороны — да.

С другой стороны:

— Люди Земли! — раздался голос — чудесный квадрофонический звук с таким низким коэффициентом искажений, что любой знаток отдал бы полжизни за возможность услышать это еще один раз. — Говорит Простатник Джельц из Галактического бюро планирования гиперпространственных маршрутов. Как вам, безусловно, известно, развитие отдаленных районов Галактики требует прокладки гиперпространственного экспресс-маршрута, проходящего через вашу звездную систему. К сожалению, ваша планета подлежит ликвидации. На это уйдет чуть меньше двух земных минут. Благодарю за внимание.
Невообразимый ужас завладел сердцами завороженных людей. Страх передавался от человека к человеку, словно магнит двигался под листом с железными опилками. Вновь возникла паника, отчаянная нужда спасаться бегством, хотя бежать было некуда.
Заметив это, вогоны опять включили свою громкоговорящую систему.
— Сейчас бесполезно прикидываться дурачками. Проекты трассы и планы взрывных работ были выставлены для всеобщего ознакомления в местном Отделе планирования на Альфе Центавра еще пятьдесят земных лет назад — достаточный срок, чтобы подать жалобу по надлежащим каналам.
Чудовищные корабли с обманчивой легкостью развернулись в небе. В днище каждого открылся люк — зияющий черный провал.
В это время кто-то где-то, вероятно, включил передатчик и от имени Земли обратился к вогонам с мольбой. Никто так и не услышал этих слов, зато ответ услышали все. Со щелчком ожила громкоговорящая система, и раздраженный голос произнес:
— Что значит «не были на Альфе Центавра»? Помилуй Бог, туда всего-то четыре световых года, рукой подать! Если вы настолько не интересуетесь общественной жизнью, то это ваше личное дело!.. Включить подрывные лучи!
Люки извергли поток света.
— Прямо не знаю, — капризно пожаловался голос, — какая-то апатичная планета… Ни капли не жаль.
Воцарилась чудовищная, кошмарная тишина. Раздался чудовищный, кошмарный грохот. Воцарилась чудовищная, кошмарная тишина. Флот вогонов медленно уплыл в чернильно-звездную пустоту.

С третьей стороны — вот у меня браузер отдает ко всем запросам заголовок X-Legal-Agreement: By responding to this request, you agree that I have full legal right to use response in any matter I see fit. You also agree to pay me 100500 rubles per response.
И почему то пока никто не прислал 100500 рублей, интересно что суд подумает?

gsaw Oct 1 2023 at 13:34

Почему лицемерие. Просто прагматичный подход с его точки зрения. Экономия средств, трудозатрат, времени. Если заставить Гугл спрашивать каждого, то вероятно можно сразу забыть про обучение ИИ , да и не только. Вероятно и поисковики тоже.

И какие альтернативы? Опрашивать каждого? Упоминать каждый источник?

robots.txt придумал же не гугл. Так же было с Streets View. Гугл не ходил по домам и не спрашивал у каждого разрешение на съемку, а предоставлял возможность отправить запрос на замыливание дома. Если бы надо было каждого спрашивать, то и не было бы такого сервиса.

Имхо, такой подход позволяет ускорить прогресс.

Теоретически да, можно указывать все использованные источники для обучения, а потом делиться доходами. Но как определять вклад каждого?

Получается пока все эти вопросы не решены, ничего не делать?

benone Oct 1 2023 at 13:39

А мне кажется, можно сделать сначала Disallow: *
А потом Allow: Google

MountainGoat Oct 1 2023 at 14:42

Согласен. А гуглу, соответственно, детектить такое и понижать в выдаче до пятой страницы. Кто не хочет участвовать в прогрессе - может не участвовать.

benone Oct 1 2023 at 14:55

Так это вроде в текущем варианте должно поддерживаться

Dolios Oct 1 2023 at 18:04

А при чем тут поисковая выдача и ранжирование в ней?

Hardcoin Oct 1 2023 at 19:21

Вы такой вариант предполагаете потому, что гугл занимает огромную долю рынка. Но в таком случае это общественно значимый сервис, который не имеет права давать разные условия людям. Как если бы в магазине обслуживали или не обслуживали в зависимости от отношения к абортам, например.

vikarti Oct 2 2023 at 14:12

Уже была история с Google News и требованием гуглу платить за право поставить ссылки.
Вообщем текущая версия(см например https://habr.com/ru/news/498108/ ) законов на эту тему (где есть) бывает даже и в стиле — гугл (и фейсбук — а что — тоже ссылки показывают а что их пользователи запостили — не важно) должен платить, если не договорился про сумму — правительство поможет, вырубить вообще показ ссылок (или перенести их на 100500 страницу чисто в наказание) — низзя. Выходит… ну не очень.

vikarti Oct 1 2023 at 15:44

В точности та же ситуация что с индексированием сайтов.
И… вполне возможно что еще через некоторое время сделают все же же фактический стандарт на расширение к robots.txt для ИИ-целей.

Тут больше опасность что появятся желающие "помочь" и повторится история с ACAP/robots.txt 2.0 где наклепали сложных правил а вот тех кому это реализовывать — вообще забыли пригласить к обсуждению, ну и получили что его никто не поддерживает.

Не хотите чтобы лезли — ну так простейший robots.txt "я не хочу чтобы ко мне никто не лез" состоит вообще из двух строк насколько помню.

i_Max2 Oct 2 2023 at 10:40

А не получится ли так что после "я не хочу чтобы ко мне никто не лез" в robots.txt на сайт действительно никто не полезет по причине полного отсутствия его в поисковой выдаче. Максимум кто туда зайдет это по линку на визитке.

Предположу что возможны варианты что в будущем особо подозрительные бровсеры начнут ругатся при открытии такого сайта на отсутствие какой либо информации об этом сайте в "индексах" восприняв его как вредоносный/подозрительный.

Ну по аналогии с тем что отсутствие человека в соцсетях считается (ну или предпологает) как что то "социально опасное".

vikarti Oct 2 2023 at 14:04

Из моего опыта — почти все сайты которые реально рассчитаны на посещения обычными пользователями без авторизации, блочат через robots.txt только те разделы куда надо только под авторизацией либо там ну нет контента
вот смотрим у habr.com — Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /ajax/
Disallow: /login/
Disallow: /register/
Disallow: /ru/viewcount/
Disallow: /en/viewcount/

Поиск, авторизация.

Вообще, я знаю ровно одно исключение когда сайт вполне себе ориентированный на пользователей без авторизации блочит почти все. Ну нехотят чтобы их (художественные скажем так произведения, в основном текст, немного картинок) светился в поиске. Контент не то чтобы совсем уж уникальный. Но на специфическую аудиторию. Сильно подозреваю что могут найтись желающие в комментариях (а там нет авторизации толком) начать доказывать какие там пользователи нехорошие и что с ними надо сделать. Все кому он потенциально интересен — про него знают, а кто не знает — ссылку подкинут при общении в других местах.
Поиск на сайте вполне себе есть свой.
Технической защиты от выкачивания автоматизированными средствами — у них не стоит (хотя сидят за Cloudflare).
Монетизация — донаты + на каждой странице снизу баннер одного интернет-магазина, для которого посетители этого сайта вероятно будут целевой аудиторий.

SUNsung Oct 1 2023 at 15:48

Собсвенно затем и потому нужно делать сайт закрытым от выгрузки.

Cloudflare это хорошо, но тот же гугл может получать данные в обход его.

Самое лучшее хоть и странное решение - все важные данные только после авторизации

gsaw Oct 1 2023 at 16:40

Уже не странное, каждая пятая (по ощущению) ссылка на Google News приводит на такую страничку с новостью, где только первый абзац можно прочитать, остальное по подписке. Или на страницу, где можно посмотреть рекламу.

segment Oct 1 2023 at 17:03

Поясните, как это вообще предотвращает сканирование такими ботами? Каким образом кто-то узнает, что чей-то сайт был просканирован?

NNikolay Oct 2 2023 at 06:23

Это просьба, которую гугл обещает соблюдать. Проверить запрет на индексирование было можно погуглив свой сайт. Конкретно этот запрос, видимо, никак не проверить. Только на доверии.

vikarti Oct 2 2023 at 14:07

Данную просьб принято выполнять.
А против ботов которые вежливо — не понимают есть например ловушки.
Дописать в robots.txt куда ходить не надо и подкинуть на страницу которая будут индексироваться, ссылку куда не надо, а там — куча зацикливающихся на другие такие же ссылок и если кто-то начнет ходить по этим ссылкам — ну значит бот, который к тому же вежливую просьб с robots.txt проигнорировал, либо программист ошибся. Собираем статистику и если это массово с этого IP — в бан по IP.

Как узнают — по заходам со специфическими UserAgent'ами. Индексирующие спайдеры с ними ходит (детекторы cloaking'а — с обычными браузерными). И да — это все так принято. Выполнять это никто не обязан. Но выполняют.