Pull to refresh

Comments 41

Пример очередного лицемерия от Гугл и ко. Ну впрочем как и всегда.

Поясню: вместо того, чтобы прямо давать разрешение на использования данных МОЕГО сайта в обучении ИХ ИИ модели, как было бы правильно, я должен отслеживать каждую такую компанию, разбираться в их ключах, агентах и т.п. После чего своевременно менять настройки своего сайта каждый раз, как появился очередной разработчик ИИ.

И вот это вот нам преподносится как великая победа. Нет уж, спасибо.

Если вы выкладываете что-то в Интернет, оно становится уже не совсем "вашим". Кто-то в обычном браузере посмотрит и забудет, кто-то сохранит страничку себе в личную коллекцию (я вот например так часто делаю с ценной информацией), кто-то парсером распарсит, а кто-то и искусственным интеллектом (и это совсем не обязательно должен быть Гугл... может к примеру есть какие-то хакеры-энтузиасты, поднимающие свои нейросети для своего личного использования, а вы и не знаете)

Вы либо сами не понимаете, либо намеренно путаете "посмотреть и сохранить для себя в личных целях" и "сохранить для коммерческого использования".

И это не говоря про то, что robots.txt, это всего лишь рекомендация, которую сам же Гугл может с легкостью игнорировать.

Грань между личным и коммерческим использованием очень тонкая. Вот чтение Хабра - это личное или коммерческое? Может я для души читаю, а может чтобы лучше работу на работе работать...

А Гугл и так коммерчески использует ваши сайты. Вы создаете полезную информацию, она попадает в выдачу, вместе с рекламой, деньги от рекламы идут Гуглу.

Гугл продаёт рекламу, но не информации сайтов, трафик перенаправляется конечному сайту. Баланс интересов сохранен, не говоря уже про "где коммерческое?".

Сейчас же, гугл (и тому подобные) как управляющий моста начал копировать информацию вебмастеров, и напрямую монетизировать посетителей исключая источника информации.

Проще говоря из каталога ссылок превращается в умный агрегатор контента за бабло (в будущем). Ваша логика "мягко" говоря убого.

нет, не путает. Данные вашего сайта уже используются для коммерческого использования. Любой поисковик индексирует ваш сайт не чтобы помочь человечеству, а с целью получения коммерческой выгоды. А если ваш сайт имеет внушительную аудиторию и функционал комментирования, то по вашему сайту ещё и строятся аналитические обзоры, которые тоже продаются за деньги.

Замените в вашем исходном сообщении "обучение ИИ модели" на "поисковую индексацию" и найдите хотя бы пару различий

Если Гугл собирается учитывать роботс, то есть собирается уважать права владельцев сайтов, но что же ему мешает не трогать сайты, которые не дали явного разрешения? Кроме того, что это невыгодно.

Мысль, что контент "не совсем" ваш могла быть уместна, если бы Гугл в любом случае забирал бы контент. Почему, по мнению Гугла, если я поставил явный запрет, то контент мой, а если не дал явного разрешения, то "не совсем" мой?

По умолчанию сайт отдает 200 ОК, запретов доступа нет. Весь интернет работает по принципу "можно, если не сказано обратное".

Это и есть инструмент ограничения доступа. Используйте.

200 ОК это вообще про работу протокола и к содержимому никакого отношения не имеет.
При скачке пиратского фильма мне тоже 200 ОК пишут, значит ли это что-то?

Вы размещаете сайт. Клиент делает запрос и получает 200 ОК. По умолчанию, обычно, этот ответ получают все клиенты, включая поисковых ботов. Если вы так хотите то можете отдавать 403.

Вам же никто не запрещает не обслуживать определенную часть клиентов? К примеру ботов. Закрывайте сайт и все. В чем проблема?

Сравнение с пиратским фильмом вообще некорректно, это заведомо нарушение.

Заведомо нарушение, это использовать материал не имея на то правовых оснований. А они получаются на основе лицензий либо ещё каких правовых инструментов, а не технических ответов интернета.
Ну не нравится вам фильмы, давай зайдём на гитхаб и посмотрим, что же разрешает нам использовать открытый код, файл LICENSE или ответ гитхаба 200 ?

То есть, если сайт отдал 200, то контент свободный? Фильмы, книги, код, всё, отказывается, свободное, если нет ограничения доступа?

Ничего подобного. Лицензии тоже 200 ОК отдают, из требуется соблюдать. Именно в них и сказано обратное. А может ли робот Гугла прочитать и понять лицензию - это его проблемы.

Лицензии указываются для людей, не для роботов (хотя, уже есть возможность указывать лицензию для изображений). Для ограничения доступа роботов как раз и служит robots.txt

То чтобы боты читали какой то файл лицензии это не более чем ваша хотелка. Возможно в будущем так и будет, но пока что есть такой инструмент.

Чтобы я указывал robots.txt - это не более, чем хотелка Гугла. В законе нет специального исключения, которое дает Гуглу права на мой контент, если я robots не заполнил. Инструмент не "есть". Его выдумал Гугл и пытается сделать вид, что он обязательный. Большая корпорация заменяет собой законодательную власть, это крайне плохо.

В каком законе? Вы сначала говорите про лицензию, теперь про закон. Вы определитесь уже.

Вам дали инструмент ограничения доступа, не выдуманный а общепризнанный, с соответствующим RFC. Но вы в упор не хотите его использовать считая что кто то должен следовать вашим хотелкам. Открою секрет -- всем начхать на ваши хотелки. Или вы из условного РКН и считаете, что все вокруг во всем мире должны исполнять ваши кривые законы? В общем удачи. Можете влипить очередной минус, вам от этого станет легче.

Вы сначала говорите про лицензию, теперь про закон. Вы определитесь уже.

Существование лицензий гарантирует закон. В нем написано про лицензии (вы обязаны их соблюдать, если пользуетесь контентом). Но в нём не написано про robots (вы не обязаны его делать, что бы лицензии продолжали работать).

То есть, гугл обязан соблюдать лицензию и если там написано, что нельзя использовать для ИИ - он не имеет права использовать. А я НЕ обязан соблюдать robots. И если его нет на сайте, гугл всё равно не имеет права использовать мой контент.

должен следовать вашим хотелкам.

Вы реально путаете RFC и закон. Закон для вас - хотелка почему-то.

ваши кривые законы

Американские законы Гугл обязан соблюдать. Кривые они или не кривые.

Можете влипить очередной минус, вам от этого станет легче.

Аккаунты с кармой меньше пяти не могут ставить минусы.

Если контент публичный, это не значит что с ним можно делать все что угодно.

А что, создатели ИИ должны анализировать каждую страницу в интернете, искать автора и получать разрешение? Получается, команда для создания ИИ должна состоять из одного айтишника и миллиона секретарей?

Если не хотите, чтобы ваш контент сканировали, показывайте его только зарегистрированным пользователям.

А почему нет? Если я хочу выпустить справочник медицинских диагнозов всего города, можно применить вашу логику? Не нанимать же мне миллион секретарей, что бы собирать разрешения на публикацию с каждого? Лучше опубликую в газете правила, по которым каждый сможет отказаться от публикации своей истории болезни, если хочет. Тогда я, как и разработчик ИИ, сэкономлю на секретарях.

Только вот медицинские диагнозы - это изначально и по закону приватные данные, а ваш сайт - изначально нет (ну или делайте его приватным, с доступом только для избранных по паролю, как выше предлагали)

У каждого сайта есть (или может быть по желанию его автора) правила его использования. Это тоже по закону, и причем без всяких входов по паролю или приватного доступа только для избранных.
Поэтому прежде чем что либо использовать в коммерческих целях, вы обязан убедиться в возможности этого, а не "нашел данные в интернете, поэтому что хочу с ними, то и делаю".

Это просто иллюстрация к теме. Если Гугл считает данные на всех сайтах свободными, зачем профанация в виде возможности запретить использование данных со своего сайта? Просто использовали бы, раз это не приватные данные.

Однако они явно понимают, что законы-то уже есть. Просто хотят ввести свои дополнительные правила. Якобы законов недостаточно, нужно ещё правила частной корпорации соблюдать, иначе твои данные - это их данные.

Есть ньюанс — врачи вполне себе оные диагнозы, чем лечили и что вышло публикуют. И давно. Особенно если это редкий диагноз или чем то существенно отличается.
В научных статьях и приняв меры чтобы нельзя было посторонним идентифицировать конкретных личностей с этим диагнозом.
Потому что это все нужно для прогресса медицины.

С одной стороны — да.


С другой стороны:


— Люди Земли! — раздался голос — чудесный квадрофонический звук с таким низким коэффициентом искажений, что любой знаток отдал бы полжизни за возможность услышать это еще один раз. — Говорит Простатник Джельц из Галактического бюро планирования гиперпространственных маршрутов. Как вам, безусловно, известно, развитие отдаленных районов Галактики требует прокладки гиперпространственного экспресс-маршрута, проходящего через вашу звездную систему. К сожалению, ваша планета подлежит ликвидации. На это уйдет чуть меньше двух земных минут. Благодарю за внимание.
Невообразимый ужас завладел сердцами завороженных людей. Страх передавался от человека к человеку, словно магнит двигался под листом с железными опилками. Вновь возникла паника, отчаянная нужда спасаться бегством, хотя бежать было некуда.
Заметив это, вогоны опять включили свою громкоговорящую систему.
— Сейчас бесполезно прикидываться дурачками. Проекты трассы и планы взрывных работ были выставлены для всеобщего ознакомления в местном Отделе планирования на Альфе Центавра еще пятьдесят земных лет назад — достаточный срок, чтобы подать жалобу по надлежащим каналам.
Чудовищные корабли с обманчивой легкостью развернулись в небе. В днище каждого открылся люк — зияющий черный провал.
В это время кто-то где-то, вероятно, включил передатчик и от имени Земли обратился к вогонам с мольбой. Никто так и не услышал этих слов, зато ответ услышали все. Со щелчком ожила громкоговорящая система, и раздраженный голос произнес:
— Что значит «не были на Альфе Центавра»? Помилуй Бог, туда всего-то четыре световых года, рукой подать! Если вы настолько не интересуетесь общественной жизнью, то это ваше личное дело!.. Включить подрывные лучи!
Люки извергли поток света.
— Прямо не знаю, — капризно пожаловался голос, — какая-то апатичная планета… Ни капли не жаль.
Воцарилась чудовищная, кошмарная тишина. Раздался чудовищный, кошмарный грохот. Воцарилась чудовищная, кошмарная тишина. Флот вогонов медленно уплыл в чернильно-звездную пустоту.

С третьей стороны — вот у меня браузер отдает ко всем запросам заголовок X-Legal-Agreement: By responding to this request, you agree that I have full legal right to use response in any matter I see fit. You also agree to pay me 100500 rubles per response.
И почему то пока никто не прислал 100500 рублей, интересно что суд подумает?

Почему лицемерие. Просто прагматичный подход с его точки зрения. Экономия средств, трудозатрат, времени. Если заставить Гугл спрашивать каждого, то вероятно можно сразу забыть про обучение ИИ , да и не только. Вероятно и поисковики тоже.

И какие альтернативы? Опрашивать каждого? Упоминать каждый источник?

robots.txt придумал же не гугл. Так же было с Streets View. Гугл не ходил по домам и не спрашивал у каждого разрешение на съемку, а предоставлял возможность отправить запрос на замыливание дома. Если бы надо было каждого спрашивать, то и не было бы такого сервиса.

Имхо, такой подход позволяет ускорить прогресс.

Теоретически да, можно указывать все использованные источники для обучения, а потом делиться доходами. Но как определять вклад каждого?

Получается пока все эти вопросы не решены, ничего не делать?

А мне кажется, можно сделать сначала Disallow: *
А потом Allow: Google

Согласен. А гуглу, соответственно, детектить такое и понижать в выдаче до пятой страницы. Кто не хочет участвовать в прогрессе - может не участвовать.

Так это вроде в текущем варианте должно поддерживаться

А при чем тут поисковая выдача и ранжирование в ней?

Вы такой вариант предполагаете потому, что гугл занимает огромную долю рынка. Но в таком случае это общественно значимый сервис, который не имеет права давать разные условия людям. Как если бы в магазине обслуживали или не обслуживали в зависимости от отношения к абортам, например.

Уже была история с Google News и требованием гуглу платить за право поставить ссылки.
Вообщем текущая версия(см например https://habr.com/ru/news/498108/ ) законов на эту тему (где есть) бывает даже и в стиле — гугл (и фейсбук — а что — тоже ссылки показывают а что их пользователи запостили — не важно) должен платить, если не договорился про сумму — правительство поможет, вырубить вообще показ ссылок (или перенести их на 100500 страницу чисто в наказание) — низзя. Выходит… ну не очень.

В точности та же ситуация что с индексированием сайтов.
И… вполне возможно что еще через некоторое время сделают все же же фактический стандарт на расширение к robots.txt для ИИ-целей.


Тут больше опасность что появятся желающие "помочь" и повторится история с ACAP/robots.txt 2.0 где наклепали сложных правил а вот тех кому это реализовывать — вообще забыли пригласить к обсуждению, ну и получили что его никто не поддерживает.


Не хотите чтобы лезли — ну так простейший robots.txt "я не хочу чтобы ко мне никто не лез" состоит вообще из двух строк насколько помню.

А не получится ли так что после "я не хочу чтобы ко мне никто не лез" в robots.txt на сайт действительно никто не полезет по причине полного отсутствия его в поисковой выдаче. Максимум кто туда зайдет это по линку на визитке.

Предположу что возможны варианты что в будущем особо подозрительные бровсеры начнут ругатся при открытии такого сайта на отсутствие какой либо информации об этом сайте в "индексах" восприняв его как вредоносный/подозрительный.

Ну по аналогии с тем что отсутствие человека в соцсетях считается (ну или предпологает) как что то "социально опасное".

Из моего опыта — почти все сайты которые реально рассчитаны на посещения обычными пользователями без авторизации, блочат через robots.txt только те разделы куда надо только под авторизацией либо там ну нет контента
вот смотрим у habr.com — Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /ajax/
Disallow: /login/
Disallow: /register/
Disallow: /ru/viewcount/
Disallow: /en/viewcount/


Поиск, авторизация.


Вообще, я знаю ровно одно исключение когда сайт вполне себе ориентированный на пользователей без авторизации блочит почти все. Ну нехотят чтобы их (художественные скажем так произведения, в основном текст, немного картинок) светился в поиске. Контент не то чтобы совсем уж уникальный. Но на специфическую аудиторию. Сильно подозреваю что могут найтись желающие в комментариях (а там нет авторизации толком) начать доказывать какие там пользователи нехорошие и что с ними надо сделать. Все кому он потенциально интересен — про него знают, а кто не знает — ссылку подкинут при общении в других местах.
Поиск на сайте вполне себе есть свой.
Технической защиты от выкачивания автоматизированными средствами — у них не стоит (хотя сидят за Cloudflare).
Монетизация — донаты + на каждой странице снизу баннер одного интернет-магазина, для которого посетители этого сайта вероятно будут целевой аудиторий.

Собсвенно затем и потому нужно делать сайт закрытым от выгрузки.

Cloudflare это хорошо, но тот же гугл может получать данные в обход его.

Самое лучшее хоть и странное решение - все важные данные только после авторизации

Уже не странное, каждая пятая (по ощущению) ссылка на Google News приводит на такую страничку с новостью, где только первый абзац можно прочитать, остальное по подписке. Или на страницу, где можно посмотреть рекламу.

Поясните, как это вообще предотвращает сканирование такими ботами? Каким образом кто-то узнает, что чей-то сайт был просканирован?

Это просьба, которую гугл обещает соблюдать. Проверить запрет на индексирование было можно погуглив свой сайт. Конкретно этот запрос, видимо, никак не проверить. Только на доверии.

Данную просьб принято выполнять.
А против ботов которые вежливо — не понимают есть например ловушки.
Дописать в robots.txt куда ходить не надо и подкинуть на страницу которая будут индексироваться, ссылку куда не надо, а там — куча зацикливающихся на другие такие же ссылок и если кто-то начнет ходить по этим ссылкам — ну значит бот, который к тому же вежливую просьб с robots.txt проигнорировал, либо программист ошибся. Собираем статистику и если это массово с этого IP — в бан по IP.


Как узнают — по заходам со специфическими UserAgent'ами. Индексирующие спайдеры с ними ходит (детекторы cloaking'а — с обычными браузерными). И да — это все так принято. Выполнять это никто не обязан. Но выполняют.

Sign up to leave a comment.

Other news