Комментарии 41
Правда насколько мне известно, большинство так называемых «плохих ботов» просто игнорируют файл robots.txt, поэтому если не стоит защиты на сервере, то чихать они хотели на все эти запреты.
Гай, роботс.тхт — это тупо файл в корне сайта. Он ничего сам по себе не может. "Белые" краулеры вроде как стараются его не нарушать, с остальными приходится бороться на уровне серверного ПО (выискивать по user-agent, либо анализировать способ формирования трафика… например 10 страниц в секунду для человека — как-то перебор, а вот робот может попытаться и больше).
Сомневаюсь, что сколько-нибудь глобальный поисковик напишет, что игнорирует (даже если это так) — банально вредно для бизнеса, так что только вручную искать/проверять.
гугл уже был замечен за тем что игнорит робот ткстКогда, кто, где? Единственный известный вариант — это размещение сайта на хостинге «за бакс в месяц», где даже robots.txt отдаётся через раз (тогда гуглобот может robots.txt просто не увидеть) и обновления (когда бот некоторое время пользуется скачанным несколько часов/дней назад robots.txt). Всё. Заведите сами web-сайт да поэспериментируйте.
Данных с сайтов, которые забанили Гуглобота Гугл не получает, соответственно никакого «секретного ключа имени CSI» в природе быть не может…
А про robots.txt, так вообще смешно.
Ведь некоторая их продукция позволяет выбирать юзерагенты: из списка или, иногда, произвольные.Да даже и Microsoft позволяет! Но пока там по умолчанию что-то разумное и непересекающееся с гуглоботами/яндексботами/etc — судить производителя нельзя, нужно судить пользователя: та же история, что и с кухонными ножами (да, ими можно убить, но они, в общем, не для этого предназначены). А кому интересно это делать с одним, отдельно взятым, пользователем? Сколько вы с него денег получите?
А вот если вы тот же самый скрипт куда-нибудь внедрите, работая, скажем, на Вымпелком — о, тут уже на запах денег юристы и подтянутся.
А смотреть то можно? Браузером?Да, разумеется — иначе непонятно что эти файлы вообще на web-сайте делают.
А если сохранить страницу?А тут уже начинаются сложности. Кто будет потом эту страницу смотреть и как. Но вообще — да: Свободное воспроизведение произведения в личных целях.
А если пропарсить её питоном?Ещё интереснее.
Просто непонятна граница между легальным просмотром и нарушением авторских прав.Так и должно быть. Это нормально. Если бы таких «серых» зон не существовало, то за что юристы бы деньги получали? Ну тут важно понимать, что всё решают не ваши хотелки, не хотелки авторов сайтов, а закон. Если вы в России — то это глава 70 ГК.
Когда в ответе на подобные вопросы говорят «проконсультируйтесь с юристом» — то это не потому, что не хотят отвечать! А потому что чёткого ответа на вопрос уже нет и нужно грамотно оценить — на какие деньги вы можете «в случае чего» влететь.
Как по мне, так всё выложенное в открытый доступ можно как минимум собирать и обрабатывать.На основании чего вы так считаете? Вы не поверите, но и Google и Yahoo реально пытались засудить за то, что они индексируют web (много лет назад, разумеется). И вопрос наличия у них той самой implied license поднимался. И ровно-таки наличие всей этой шумихи вокруг robots.txt убедили судью в том, что да, таки Google имеет право странички сканировать.
Это-то без проблем прокатило, вот за сниппеты там больше разборок было.
Я не притворялся гуглоботом, я просто поставил такую строчку.И тем самым обошли ограничения robots.txt. На основании чего вы считаете, что имеете на это право?
Так-то закон вполне однозначен — копирование чего-либо без письменного разрешения автора запрещено. Где ваше письменное разрешение? Ах, ну вот же оно. robots.txt называется. Что там написано? Гуглоботу — можно. А вы — гуглобот?
Он вообще носит рекомендательный характер. И вообще, какая разница, какой у меня UA, роботс тут вообще ничего не сделает. Я его вовсе могу забыть скачать.Ну так это ж ещё лучше!
Когда вы начинаете петь песни, про то, что robots.txt — это «филькина грамота», то вы, тем самым, оказываетесь без какой-либо лицензии, дающей вам право создавать копию сайта. Поймите вы, блин, что умолчание, прописанное в законе — это от от $750 до $30'000 за каждую «работу».
Это не владельцам сайта придётся доказывать в суде, что они не давали вам разрешение, а вам — как-то оправдывать ваши действия. Вы ничего про robots.txt не знаете? Вам вообще всё пофигу? Ну и отлично: открываем кошелёк и платим. Как написано в законе!
А вообще, там часто пишут со звёздочкой, для всех ботов.Вот в этом случае всё хорошо. Тут, как бы и говорить не о чем: «письменное разрешение», какое-никакое, но есть, относится ко всем ботам без исключения. На этом фоне сделать вид, что Гуглу можно, а вам — нет… будет очень сложно. Но мы ведь не об этом случае говорим, правильно? Зачем вам изображать из себя Гуглобота, если сайт, который вы скачиваете даёт своё содержимое кому угодно?
А почему это я не гуглобот? Вон, у меня даже юзерагент такой же, и сайт googlebot.sumanai.ru есть.Ну это значит, что просто тем, кто на вас «наедет» потребуется больше времени и денег… которые вы потом возместите. ГОУ ОГЛЕ тоже много разных бумаг имели — но это им не помогло.
Суд — это не компилятор, действующий по формальным признакам. Это — человек, у которого, в общем-то, голова на плечах таки есть.
Пока вы используете скрипты для того, чтобы для себя качать сайты — мало кто будет в вами связываться. Во-первых cвободное воспроизведение произведения в личных целях (для справки: «воспроизведение» в законе — это как раз-таки создание копии), во-вторых — кому вы интересны?
Вот если вы что-то такое скачаете, а потом выложите куда-то — вот тут вас уже могут «прищучить». И тот факт, что вы скачали себе сайт обойдя robots.txt — вам зачтётся.
определить самые плохие веб-краулеры в интернете, с учётом коллективного мнения миллиона файлов robots.txt
Самые плохие найдены не были так как они просто не реагируют на директиву Disallow в /robots.txt, не пишут в user-agent ничего уникального и постоянно меняют свои IP адреса.
Наконец, есть поисковые системы вроде Baidu (BaiduSpider) и Yandex, которые могут агрессивно индексировать контент, хотя обслуживают только языки/рынки, которые не обязательно очень ценны для определённых сайтов. Лично у меня оба эти краулера генерируют немало трафика, так что я бы тоже посоветовал заблокировать их.
А потом жалуемся на то что Яндекс плохо ищет не в рунете, и обвиняем его разработчиков.
Сам частично перешёл с гугла на Яндекс ради эксперимента, и когда ищешь какие то темы нормально представленные на русском он даже лучше, но стоит поискать что то на инглише полный мрак и приходится перенаправлять запрос в гугл. Теперь понятно почему.
Обратите внимание, что именно фраза про "рекомендую заблокировать" переведена неправильно. В исходной статье: "оба этих поисковика приводят ко мне на сайт пользователей, поэтому я бы не рекомендовал их банить".
blog.majestic.com/development/alexa-top-1-million-sites-retired-heres-majestic-million
я брал маджестик, тоже проводил исследование: www.facebook.com/sergebezborodov/posts/10210475319615839
эти «топ 1м» нужно писать в кавычках, когда в них больше 50 тыс доменов в принципе не резолвятся
Я аналогично хотел проверить насколько прижился humans.txt по этому топу и результаты получил удручающие: на миллион сайтов только 169 humans.txt файлов и из тех половина — национальные домены гугла =(
# User-agent: human
# Goto: /humans.txt
#
# User-agent: hacker
# Goto: /hackers.txt
Через какое-то время после сдачи проекта, клиент присылает мне
P.S. Благо клиент адекватный и после моих аргументов тут же прекратил сотрудничество с подобным специалистом.
Просто интересно, сам я не понимаю в теме ничего.
— robots.txt не поддерживает инструкции Goto
Соответственно если в комментариях указано что-то в стиле Goto: /humans.txt, то это никак не означает, что humans.txt должен присутствовать на сервере.
Более того, наличие этого файла дело сугубо индивидуальное и никоим образом не связано с продвижением сайтов. Почему в аудите это отнесли к ошибке — для меня так и осталось загадкой. Но лишь один тот факт, что анализируя robots.txt человек допустил аж 2 ошибки (упустил из виду комментарий и воспринял Goto приписку как инструкцию), можно сделать вывод о его компетентности.
Я включил в таблицу пометку, позволяет ли сайт ещё DuckDuckGo индексировать свою заглавную страницу, в попытке показать, насколько тяжело приходится в наши дни новым поисковым системам.
На своих сайтах я вижу больше переходов с DDG чем даже с Яндекса, но ни разу не видел в логах их собственного краулера (только DuckDuckGo-Favicons-Bot/1.0 десяток раз в месяц, но это, судя по названию, не то). В Википедии написано что DDG использует массу источников, в том числе Bing, так что предполагаю что по факту заблокированность DDG в robots, к счастью, не сильно мешает его работе.
Анализ файлов robots.txt крупнейших сайтов