Pull to refresh

Робот Яндекса учитывает пожелания

IT-companies
Недавно на Хабре прошла дискуссия, где обсуждалась политика обхода сайтов и инцидент с роботом Яндекса у серверов uaprom.net и ruprom.net.
Спасибо всем за последовавшие советы, мы постараемся их учесть. Что касается случая с uaprom/ruprom, то данные о безобразном поведении нашего робота правдивые, но не отражают полной картины.

1. Робот Яндекса выкачал 19238 страниц с 8506 (восьми тысяч пятисот шести) поддоменов uaprom.net и с 6896 (шести тысяч восьмисот девяноста шести) поддоменов ruprom.net, а не с двух хостов, как может показаться из заметок.

2. На каждый хост (из ~ 15000) делалось не более одного обращения в 1,1 или 2 секунды (в зависимости от размера хоста).

Сейчас uaprom.net/robots.txt и ruprom.net/robots.txt установили Crawl-Delay в 0,5, благодаря чему увеличили нагрузку на своих хосты (по умолчанию Crawl-Delay 1,1 или 2 секунды).

3. Все поддомены ruprom.net и uaprom.net лежат на двух IP. Автоматические алгоритмы Яндекса определили ruprom.net и uaprom.net как хостинги (они и позиционируют себя как надежные хостинги, см. ruprom.net/tour-4 и uaprom.net/tour-4).

Для надежного хостинга, на серверах которого находится много сайтов, мы создавали нагрузку, не превышающую 12 запросов в секунду на IP.

4. User-Agent отдавался «YandexSomething» и это наша вина. Это был не новостной, а один из поисковых роботов, у которого мы забыли изменить дефолтное представление. Ошибку исправили, спасибо, робота поставили в угол.

Резюме: нагрузка создаваемая на IP хостингов ruprom.net и uaprom.net не превышала лимиты, допустимые при обходе большинства хостингов. Мы понимаем, что она может быть избыточной для небольших хостингов и постараемся лучше дифференцировать нагрузку на большие и малые хостинги. Надеемся, что сервера рунета будут встречать перевоспитанного робота благосклонно.
Tags:
Hubs:
Total votes 147: ↑141 and ↓6 +135
Views 718
Comments Comments 36