Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Был уверен, что RFC или иной стандарт есть, просто на глаза не попадался :)
Скорее это защита самих краулеров от спама. Бывают ведь страницы с бесконечным содержимым, типа календариков на все года.
Они протсо пытаются казаться добыми или там есть какие то юридические тонкости, и еще есть ли поисковики игнорирующие робот.тхт?Юридическая тонкость в том, что только наличие robots.txt позволяет поисковикам заявлять, что они вообще что-то там могут скачивать и парсить. Юридически это называется Implied license.
отстутствие robots.txt не подразумевает, что я разрешаю делать, что угодно с моим контентомПодразумевает. Для ограничений доступа во всех протоколах есть встроенные средства (вот в HTTP, например). Если вы ими не пользуетесь и не ограничиваете доступ с помощью robots.txt — то подразумевается, что вы выложили информацию на всеобщее обозрение.
Дайте ссылку на подтверждения вашего утверждения с реальными судебными решениями в отношении поисковиков (или хотя бы утверждениями представителей поисковиков про юридическое значение robots.txt или что хоть один суд учитывает наличие/отсутствие этого файла).А искать не пробовали? Field v. Google Inc., Parker v. YAHOO!, Inc. и другие.
Насколько я знаю, поисковики в основном упирают на пункты о возможности ограниченного цитирования объектов авторского права.Поисковики (а вернее их юристы), обычно презентуют сразу 100500 вариантов. Но обычно всё сводится к вопросам:
и вот именно robots.txt предназначен для того, чтобы дать возможность кому-то ограничить доступ для роботов (сохранив свободный доступ для людей).
не очень понимая, что без них — от их сайтах тупо никто не узнал бы.
Если вы ими не пользуетесь и не ограничиваете доступ с помощью robots.txt — то подразумевается, что вы выложили информацию на всеобщее обозрение.
На обозревание, но не копирование.А это уж как вы в robots.txt напишите.
Поисковики — исключение, только потому что они не используют сам контент для других целей кроме поиска.Не совсем.
Понимая, там скорее жулики вида «добавить по тихому недосайт в гугл, а потом вдруг прокатит срубить денег».Они со сниппетами боролись. И с кешом. То есть как раз с «с использованием для других целей, кроме поиска». Суд постановил, что раз есть возможность поисковики ограничить — то это уже ваша забота решать: хотите вы давать доступ или нет. А требовать, чтобы контент использовался «только для поиска» — вы не можете.
Они со сниппетами боролись. И с кешом. То есть как раз с «с использованием для других целей, кроме поиска». Суд постановил, что раз есть возможность поисковики ограничить — то это уже ваша забота решать: хотите вы давать доступ или нет.
Archive.org и archive.is под то же исключение попадают — а там поиска в принципе нету.
А это уж как вы в robots.txt напишите.
Насколько помню они недавно решили забить на robots.txt и их до сих пор не засудили.Ссылку можно? Я пока встречал только случаи ретроактивного применения robots.txt, а не его игнорирование…
Исключение связано с так называемым «добросовестном использованием» — пока суд считает, что вы не наживаетесь на чужом авторском праве вы в рамках закона.К наживе это вообще не имеет отношение. Ваше нарушение авторского права должно способствовать прогрессу науки и полезных искусств — что достаточно очевидно в случае с поисковиками, но куда как менее очевидно в случае с теми же сниппетами, например.
Гугл недавно пресовали за то, что он полностью копировал новости, так что пропадала необходимость заходить на сайт новостных агенств и это вроде было признано не «добросовестным использованием», несмотря на открытые robots.txt.Ни разу ни так. Поскольку суды категорически отказывались признавать подобные вещи незаконными,
ИМХО, дело не в robots.txt, а том посчитают ваше использование «добросовестным» или нет.Если бы дело было так, как вы описываете (а оно примерно так обстоит в Америке) — то не потребовалось бы специальные законы «против Гугла» принимать.
В парсере не обошлось и без забавных моментов: взгляните к примеру на то, сколько труда пошло на обработку «disallow».

Я конечно понимаю что про вкус фломастеров не спорят, но называть отсутствие сглаженности идеальным...
Да потому что появился пласт "дизайнеров" выращенных на макосевом freetype со сглаживанием без хинтинга и с читающих что так — хорошо
disallow. По крайней мере, пока остальные варианты не попадут в стандарт. Устроили тут…$d = [
'dissallow',
'dissalow',
'disalow',
'diasllow',
'disallaw',];
foreach ($d as $item) echo levenshtein('disallow', $item), PHP_EOL;return (
absl::StartsWithIgnoreCase(key, "disallow") ||
(kAllowFrequentTypos && absl::StartsWithIgnoreCase(key, "dis") &&
((absl::StartsWithIgnoreCase(key, "dissallow")) ||
(absl::StartsWithIgnoreCase(key, "dissalow")) ||
(absl::StartsWithIgnoreCase(key, "disalow")) ||
(absl::StartsWithIgnoreCase(key, "diasllow")) ||
(absl::StartsWithIgnoreCase(key, "disallaw")))));
Google открывает исходный код парсера robots.txt