Pull to refresh

Пожелания Яндексу

IT-companies
За более чем год работы наших сайтов, у нас появились следующие пожелания Яндексу, которые могут сделать работу этой поисковой системы более дружелюбной к интернет-сайтам которые она индексирует.
За каждым из этих пожеланий стоит отдельная история, которая аргументирует его важность, кроме того, многие из этих пожеланий довольно просто выполнить.

Используйте достаточно большой Сrawl-delay «по умолчанию»
Однажды у нас упал сайт, как оказалось робот YandexSomething скачивал до 12 страниц в секунду. Да у нас не было сrawl-delay, но это не должно разрешать роботу поисковой системы делать так много запросов в секунду, установка этого параметра по умолчанию хотя бы в 1 секунду позволила бы избежать таких проблем, те кто хотят быстрее могут настроить этот параметр, но сайты не знающие о существовании YandexSomething не должны страдать от этого.

Разделяйте User-agent:YandexSomething и Yandex/1.01.001
Нашей реакцией на DoS атаку робота было запретить его в robots.txt, тем более что поискав мы обнаружили что это какой-то новостной бот. Это было логично, но как оказалось очень глупо. Итак (кстати об этом косвенно указано в документации) это привело к тому, что нас перестал посещать и Yandex/1.01.001 (Yandex/1.03.003 ходил исправно). Об этом мы узнали через неделю от наших пользователей, в результате сайт был выкинут из Яндекса. Трафик начал падать с задержкой в 5-6 дней и поэтому мы не могли обнаружить данную оплошность. Стоит отметить что служба поддержки признала нелогичность данного поведения и обещали исправиться. Кроме того gray в твиттере подсказал, что правильнее поставить crawl-delay, что я и сделал.

Учитывайте время отдачи контента, даже если стоит crawl-delay
У нас на сайте помимо главного домена example.net используются поддомены вида компания.example.net, даже установив Сrawl-delay мы не обезопасимся от DoS атаки роботов так как robots.txt и соответственно Сrawl-delay будет разным для всех поддоменов (а их десятки тысяч в нашем случае) и, формально, робот имеет право положить сайт с любым значением задержки заходя на 10 000 сайтов одновременно. Сегодня ночью наш сайт несколько раз перезагрузился именно по этой причине, так как количество запросов в секунду втрое превышало Сrawl-delay. Не знаю как, но Google делает все корректно и мало того что не нагружает сильно сервер, так еще и скачивает страницы равномерно, мне кажется он учитывает время отдачи контента и не запрашивает паралельно много страниц с одного IP адреса, почему бы не попробовать делать это Яндексу?

Скачивайте страницы равномерно
В нашем случае, робот заходит на основной домен крайне неравномерно. Выглядит это так: робот заходит на основной домен, несколько часов очень активно индексирует и потом уходит на 10-30 часов обрабатывать поддомены. Так как на сайт постоянно добавляется информация, у нас есть специальные страницы с последними обновлениями, с которых есть ссылки на новый контент. Понятно что заходя раз в 10-30 часов робот пропускает много чего, и это приводит к жалобам пользователей, что их сайты порой не появляются в индексе Яндекса месяцами. Опять же таки Google за пару месяцев нашел эти страницы и регулярно их скачивает, как результат очень редко проходит больше 3-х дней до индексации. Понятно что месяц для того чтобы Яндекс поиндексировал сайт это не срок, но и с этим думаю можно бороться.

Будьте более лояльными и предсказуемыми по отношению к новым сайтам
Все когда-то начинали, и не на всех были сразу ссылки с топ сайтов, в нашем случае Яндексу потребовалось более 2-х месяцев чтобы начать индексировать основной домен, и это началось только после переписки с службой поддержки, судя по опыту коллег это обычное дело, даже не смотря на уникальный контент и наличие внешних ссылок. Опять таки и здесь Google ведет себя более дружелюбно, он добавлил нас почти сразу, и постепенно равномерно повышал количество страниц и скорость индексации, да мы были не высоко в поиске, но мы там были и все развивалось предсказуемо.

Целью этого списка было не показать что Яндекс плох а кто-то хорош. Яндекс — это лидер поиска в рунете, наверное наиболее технологичный и успешный проект и это многое значит, в том числе и то что многие считают его поиск хорошим, не говоря уже про то, что наличие альтернативы всегда лучше чем ее отсутствие. Просто хочется чтобы Яндекс стал еще лучше, и более ответственно относился к сайтам, существование которых во многом зависит от него. Тем более мне кажется это не очень сложно.

Я думаю у многих читателей есть что дополнить к этому списку. Возможно было бы неплохо, если бы Яндекс реализовал возможность посылать feature request с обсуждением и голосованием, лучше от этого стало бы всем. А пока это можно сделать в коментариях.

Заранее спасибо Яндексу, если что-либо из этого списка будет услышано и реализовано.
Tags:
Hubs:
Total votes 109: ↑88 and ↓21 +67
Views 834
Comments Comments 112