Комментарии 45
Я думаю, они в протест поменяют свою главную, от НИХ это будет самый лучший шаг, имхо.
Странно, дак ведь прямая инструкция дана, как лучше уйти в бойкот:
— по запросу robots.txt возвращаем 503,
— по остальным запросам — заглушку…
— по запросу robots.txt возвращаем 503,
— по остальным запросам — заглушку…
Не совсем, насколько я понимаю — различное поведение сайта для людей и роботов у поисковых систем вызывает подозрение на клоакинг. Т.е. обычные страницы, по идее, должны отдавать заглушку под соусом 503 ошибки, не только robots.
«В нынешней конфигурации Googlebot не индексирует сайт вообще, если получает статус 503 для robots.txt»
В таком случае робот не должен увидеть что на сайте, и соответственно не должен получить подозрение на клоакинг.
В таком случае робот не должен увидеть что на сайте, и соответственно не должен получить подозрение на клоакинг.
Вы все еще на 100% верите официальным речам поисковиков? Роботы что Яндекса, что Гугла скачивают контент за нофоллоу, а также запускают ботов на сайты без агента, символизирующего, что это бот. Их антивирусные боты поступают так же.
Это чисто логичное техническое решение — продолжать запускать анонимного бота на страницы сатйа, где недоступен по 503 robots.txt, чтобы узнать, не обманывают его. Просто пореже — т.к. в 99% случаев будет висеть весь сайт.
Это чисто логичное техническое решение — продолжать запускать анонимного бота на страницы сатйа, где недоступен по 503 robots.txt, чтобы узнать, не обманывают его. Просто пореже — т.к. в 99% случаев будет висеть весь сайт.
Да, скачивают для анализа. Но в поисковую выдачу не добавляют.
Так же не забывайте, что файл robots.txt обычно скачивается асинхронно — может пройти несколько часов или дней, пока робот дойдет до самого контента. Так что, если robots.txt будет скачан сегодня утром, а вечером вы его замените на 503, то, придя качать страницы сайта завтра днем, кроулер может не заметить подмены.
Так же не забывайте, что файл robots.txt обычно скачивается асинхронно — может пройти несколько часов или дней, пока робот дойдет до самого контента. Так что, если robots.txt будет скачан сегодня утром, а вечером вы его замените на 503, то, придя качать страницы сайта завтра днем, кроулер может не заметить подмены.
Ну я как бы об этом и говорю. Добавление/недобавление в индекс не отменяет участие каких-то параметров в ранжировании.
Не, я неправильно выразился. Боты не имеют права (морального :-) ) использовать страницу за 503 для ранжирования. Они могут проверить ее антивирусом, запустить в песочнице, но анализировать для выдачи — нет. Сервер не работает и читать там нечего.
Морального :)
Ну смотрите все-таки применительно к нашей ситуации — роботсы отдают 503, а страницы сайта — нет, можно ли это использовать для определения клоакинга, или игнорировать правило «если роботс отдает 503...», или выкидывать временно из выдачи такой сайт вообще?
Ну смотрите все-таки применительно к нашей ситуации — роботсы отдают 503, а страницы сайта — нет, можно ли это использовать для определения клоакинга, или игнорировать правило «если роботс отдает 503...», или выкидывать временно из выдачи такой сайт вообще?
Зависит. Вот как это было организовано у нас:
* Если robots.txt позвращают 503 => ничего не качать, повторить попытку X раз в течении Y часов
* Robots.txt недоступны долгое время (~день-два) => считаем, что такого файла вообще нет и качаем сайт в обычном режиме
Таким образом, если robots = 503, page != 503, то через какое-то время краулер продерется вовнутрь. Если при этом он увидит другой контент (веб-мастер просто залил новый index.html), он его закеширует и проанализирует — со всеми последствиями для рейтинга. Если начать дергаться и при UA=«something-bot» возвращать другую страницу — это cloaking просто по определению, пожизненный цик с гвоздями.
Поэтому, я согласен с Пьером: robots не трогать (он кешируется на продолжительное время), страницу возвращать с 503 (система ее проигнорирует и повторит попытку через пару часов). Все просто :-)
* Если robots.txt позвращают 503 => ничего не качать, повторить попытку X раз в течении Y часов
* Robots.txt недоступны долгое время (~день-два) => считаем, что такого файла вообще нет и качаем сайт в обычном режиме
Таким образом, если robots = 503, page != 503, то через какое-то время краулер продерется вовнутрь. Если при этом он увидит другой контент (веб-мастер просто залил новый index.html), он его закеширует и проанализирует — со всеми последствиями для рейтинга. Если начать дергаться и при UA=«something-bot» возвращать другую страницу — это cloaking просто по определению, пожизненный цик с гвоздями.
Поэтому, я согласен с Пьером: robots не трогать (он кешируется на продолжительное время), страницу возвращать с 503 (система ее проигнорирует и повторит попытку через пару часов). Все просто :-)
Извините за грубость, но зачем все усложнять?
503 можно и с заглушкой возвращать.
Только нет гарантии, что после этих модификаций robots.txt будет проверен ботом перед основной индексацией. Или если изменения будут производиться вебмастером «во время» индексации.
Любопытно, а отклик в сердцах серверах наших известных сайтов эта новость найдёт?
Зачем нашим сайтам бороться с американским законопроектом? У нас и своих маразмов хватает.
Американский законопроект позволяет отключать ЛЮБЫЕ домены, в том числе — в зонах .org, .ru и прочих, даже не попадающих под юрисдикцию правительства США.
Вы себе хорошо представляете механизм отключения домена?
Чтобы заставить компанию-регистратор какой-нить тамРуцентр CyberSquatterNames подчиниться действию Американского Правосудия, под которое она не подпадает и болт клала даже на решения американского суда, и заблокировать домен vasya-pupkin.ru выложившего песню Металлики, ICANN (единственная американская организация во всей цепочке) прекратит делегирование зоны .ru?
Другое дело, что все провайдеры Америки по этому закону должны будут прекратить доступ для жителей опять же Америки к этому сайту. Но Вася Пупкин от этого не расстроится, я уверен.
Чтобы заставить компанию-регистратор какой-нить там
Другое дело, что все провайдеры Америки по этому закону должны будут прекратить доступ для жителей опять же Америки к этому сайту. Но Вася Пупкин от этого не расстроится, я уверен.
Гугл мог бы сам на это время остановить индексацию :)
Пусть все удивятся :)
Пусть все удивятся :)
А SOPA в знак протеста против протестующих против SOPA должна остальной интернет отключить на сутки.
С SOPA интернет станет практически бесполезным местом!
Corwin_ru, пусть лучше SOPA в знак протеста «отключиться».
Corwin_ru, пусть лучше SOPA в знак протеста «отключиться».
Так можно-же отдавать свою страничку с 503м кодом, где можно живым людям писать «что да как»
Бред весь этот протест. Я не то, чтобы поддеживаю SOPA. Но в конечном итоге хуже всех будет конечным пользователям. А как мы знаем из последних новостей, SOPA и так с большой вероятностью не примут.
Да и вообще странно, протест-протестом, а прибыль по расписанию? (Имеются в виду выдачи поисковых систем.)
Да и вообще странно, протест-протестом, а прибыль по расписанию? (Имеются в виду выдачи поисковых систем.)
Как цинично. SOPA SOP'ой а бизнес бизнесом.
За minecraft я заплатил свои честно заработанные деньги и хочу чтобы он работал.
сайт != сервер
хабр такой хабр, просто ппц …
не любите правду?
да, хабр в этом плане страдает. слишком много технарей нынче развелось тут, все такие правильные :p
да, хабр в этом плане страдает. слишком много технарей нынче развелось тут, все такие правильные :p
Да мне тут один красавец даже не поленился в аську написать, что я наркоман.
В ноги кланялся.
Не поленился зайти в мой профиль и написал мне целую тираду:
400245313 10:15
> За minecraft я заплатил свои честно заработанные деньги и хочу чтобы он работал.наркоман хренов, проверил бы для начала работает ли логин, прежде чем идти и плакаться на хабре. Логин работает. Тумблер, моджанг и майнкрайт.нет — показывают заглушку, но логин в лаунчере, сука, работает! Ты конечно бесуловно герой, что заплатил ЦЕЛЫХ БЛЯДЬ 600 РУБЛЕЙ за игру, я кланяюсь тебе в ноги и искренне удивлен твоим поступком.
Как будто людям заняться нечем, чесслово.
В ноги кланялся.
Не поленился зайти в мой профиль и написал мне целую тираду:
400245313 10:15
> За minecraft я заплатил свои честно заработанные деньги и хочу чтобы он работал.наркоман хренов, проверил бы для начала работает ли логин, прежде чем идти и плакаться на хабре. Логин работает. Тумблер, моджанг и майнкрайт.нет — показывают заглушку, но логин в лаунчере, сука, работает! Ты конечно бесуловно герой, что заплатил ЦЕЛЫХ БЛЯДЬ 600 РУБЛЕЙ за игру, я кланяюсь тебе в ноги и искренне удивлен твоим поступком.
Как будто людям заняться нечем, чесслово.
Что-то я не заметил разницы выдачи NY Times с default user agent и Googlebot 2.1, yahoo slup и т.п.
Откуда такая информация?
Откуда такая информация?
Ага, здорово
Гугл советует другим как закрыть доступ к сайтам, а сами прекрасно работают, закрыв логотипчик черной полосой.
Гугл советует другим как закрыть доступ к сайтам, а сами прекрасно работают, закрыв логотипчик черной полосой.
SOPA позволяет американским властям в досудебном порядке:
1. изымать доменные имена,
2. удалять сайты из поисковой выдачи
3. и блокировать их финансовые счета, в том числе в партнёрских программах вроде Google AdSense
2 и 3 пункты Google с удовольствием делает сам, даже не разбираясь что за музыка/видео или ссылки на них находятся на сайте, за сам факт mp3/видео блокируют аккаунт.
1 — с удовольствием делает например любой европейский датацентр по первому письму из прокуратуры «подскажите контактные данные человека, которому принадлежит домен», потому что тоже не хотят проблем.
1. изымать доменные имена,
2. удалять сайты из поисковой выдачи
3. и блокировать их финансовые счета, в том числе в партнёрских программах вроде Google AdSense
2 и 3 пункты Google с удовольствием делает сам, даже не разбираясь что за музыка/видео или ссылки на них находятся на сайте, за сам факт mp3/видео блокируют аккаунт.
1 — с удовольствием делает например любой европейский датацентр по первому письму из прокуратуры «подскажите контактные данные человека, которому принадлежит домен», потому что тоже не хотят проблем.
1. в доменах под американской юрисдикцией. ( Сенсация! Рутрекер переезжает обратно на торрентс.ру! )
2. Яндекс будет рад. Тем более что так и сейчас происходит, как вы и подметили
3. На том же рутрекере адсенс не замечен. Вполне хватает и других баннерных систем.
Так что для не-Америки эффект SOPы сильно преувеличен.
2. Яндекс будет рад. Тем более что так и сейчас происходит, как вы и подметили
3. На том же рутрекере адсенс не замечен. Вполне хватает и других баннерных систем.
Так что для не-Америки эффект SOPы сильно преувеличен.
Рекомендовано 503, а та же Википедия возвращает 200 и подставляет SOPA яваскриптом. Странно.
Не проще ли протестную заглушку прилепить сверху своей обычной страницы отдельным слоем оО
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Инструкция Google по правильному отключению сайтов 18 января