А можно просто на странице с поисковой строкой первые n секунд показывать баннер протеста, спрятав при этом строку для поиска, и после этого возвращать строку поиска.
Не совсем, насколько я понимаю — различное поведение сайта для людей и роботов у поисковых систем вызывает подозрение на клоакинг. Т.е. обычные страницы, по идее, должны отдавать заглушку под соусом 503 ошибки, не только robots.
«В нынешней конфигурации Googlebot не индексирует сайт вообще, если получает статус 503 для robots.txt»
В таком случае робот не должен увидеть что на сайте, и соответственно не должен получить подозрение на клоакинг.
Вы все еще на 100% верите официальным речам поисковиков? Роботы что Яндекса, что Гугла скачивают контент за нофоллоу, а также запускают ботов на сайты без агента, символизирующего, что это бот. Их антивирусные боты поступают так же.
Это чисто логичное техническое решение — продолжать запускать анонимного бота на страницы сатйа, где недоступен по 503 robots.txt, чтобы узнать, не обманывают его. Просто пореже — т.к. в 99% случаев будет висеть весь сайт.
Да, скачивают для анализа. Но в поисковую выдачу не добавляют.
Так же не забывайте, что файл robots.txt обычно скачивается асинхронно — может пройти несколько часов или дней, пока робот дойдет до самого контента. Так что, если robots.txt будет скачан сегодня утром, а вечером вы его замените на 503, то, придя качать страницы сайта завтра днем, кроулер может не заметить подмены.
Не, я неправильно выразился. Боты не имеют права (морального :-) ) использовать страницу за 503 для ранжирования. Они могут проверить ее антивирусом, запустить в песочнице, но анализировать для выдачи — нет. Сервер не работает и читать там нечего.
Ну смотрите все-таки применительно к нашей ситуации — роботсы отдают 503, а страницы сайта — нет, можно ли это использовать для определения клоакинга, или игнорировать правило «если роботс отдает 503...», или выкидывать временно из выдачи такой сайт вообще?
Зависит. Вот как это было организовано у нас:
* Если robots.txt позвращают 503 => ничего не качать, повторить попытку X раз в течении Y часов
* Robots.txt недоступны долгое время (~день-два) => считаем, что такого файла вообще нет и качаем сайт в обычном режиме
Таким образом, если robots = 503, page != 503, то через какое-то время краулер продерется вовнутрь. Если при этом он увидит другой контент (веб-мастер просто залил новый index.html), он его закеширует и проанализирует — со всеми последствиями для рейтинга. Если начать дергаться и при UA=«something-bot» возвращать другую страницу — это cloaking просто по определению, пожизненный цик с гвоздями.
Поэтому, я согласен с Пьером: robots не трогать (он кешируется на продолжительное время), страницу возвращать с 503 (система ее проигнорирует и повторит попытку через пару часов). Все просто :-)
Только нет гарантии, что после этих модификаций robots.txt будет проверен ботом перед основной индексацией. Или если изменения будут производиться вебмастером «во время» индексации.
Американский законопроект позволяет отключать ЛЮБЫЕ домены, в том числе — в зонах .org, .ru и прочих, даже не попадающих под юрисдикцию правительства США.
Вы себе хорошо представляете механизм отключения домена?
Чтобы заставить компанию-регистратор какой-нить там Руцентр CyberSquatterNames подчиниться действию Американского Правосудия, под которое она не подпадает и болт клала даже на решения американского суда, и заблокировать домен vasya-pupkin.ru выложившего песню Металлики, ICANN (единственная американская организация во всей цепочке) прекратит делегирование зоны .ru?
Другое дело, что все провайдеры Америки по этому закону должны будут прекратить доступ для жителей опять же Америки к этому сайту. Но Вася Пупкин от этого не расстроится, я уверен.
Бред весь этот протест. Я не то, чтобы поддеживаю SOPA. Но в конечном итоге хуже всех будет конечным пользователям. А как мы знаем из последних новостей, SOPA и так с большой вероятностью не примут.
Да и вообще странно, протест-протестом, а прибыль по расписанию? (Имеются в виду выдачи поисковых систем.)
Да мне тут один красавец даже не поленился в аську написать, что я наркоман.
В ноги кланялся.
Не поленился зайти в мой профиль и написал мне целую тираду:
400245313 10:15
> За minecraft я заплатил свои честно заработанные деньги и хочу чтобы он работал.наркоман хренов, проверил бы для начала работает ли логин, прежде чем идти и плакаться на хабре. Логин работает. Тумблер, моджанг и майнкрайт.нет — показывают заглушку, но логин в лаунчере, сука, работает! Ты конечно бесуловно герой, что заплатил ЦЕЛЫХ БЛЯДЬ 600 РУБЛЕЙ за игру, я кланяюсь тебе в ноги и искренне удивлен твоим поступком.
SOPA позволяет американским властям в досудебном порядке:
1. изымать доменные имена,
2. удалять сайты из поисковой выдачи
3. и блокировать их финансовые счета, в том числе в партнёрских программах вроде Google AdSense
2 и 3 пункты Google с удовольствием делает сам, даже не разбираясь что за музыка/видео или ссылки на них находятся на сайте, за сам факт mp3/видео блокируют аккаунт.
1 — с удовольствием делает например любой европейский датацентр по первому письму из прокуратуры «подскажите контактные данные человека, которому принадлежит домен», потому что тоже не хотят проблем.
1. в доменах под американской юрисдикцией. ( Сенсация! Рутрекер переезжает обратно на торрентс.ру! )
2. Яндекс будет рад. Тем более что так и сейчас происходит, как вы и подметили
3. На том же рутрекере адсенс не замечен. Вполне хватает и других баннерных систем.
Так что для не-Америки эффект SOPы сильно преувеличен.
Инструкция Google по правильному отключению сайтов 18 января