Pull to refresh

Comments 9

А почему кравлер должен делать какую-то отсечку по таким страницам? С его точки зрения это самая обычная страница сайта, разрешенная к индексации. Я может что-то не уловил, но кравлер же не проводит же смысловой анализ, а что перед ним.
Кравлер должен иметь отсечку по количеству страниц в секунду/минуту. Иначе новый сайт с 10к товаров никогда не поднимется из-за ддоса.
Ну это скорее к топик стартеру. Но в любом случае, имхо, какая-то встроенная отсечка должна быть в любом случае.
> новый сайт с 10к товаров
Типовой небольшой интернет-магазин

> никогда не поднимется
Это плохой, негодный пример того, как не надо делать интернет-магазины.
По сути, у паучков есть проверка по загруженности, и если появляются страницы, которые способны наплодить себе подобные в геометрической прогрессии, должна срабатывать отсечка по использованию ресурсов. Но соль в том, что до этого всегда всё было нормальны. Данный фильтр существует 3 года.
p.s. Как оказалось, чеснок протух, серебро окислилось. В общем, роботс не отсекает роботов от индексации. Всё закрыли через отдачу 404 ошибки ботам при обращении к адресу с вхождением filter.
Сталкивался с этой же самой проблемой.
Боты Яндекса настойчиво долбили по сайту с неистовой скоростью.

Техподдержка Яндекса ответила:
Да, этот робот принадлежит нам. Если Вы хотите снизить нагрузку на Ваш сервер, я рекомендую Вам разместить директиву Crawl-delay с соответствующим значением в файле robots.txt: yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#crawl-delay.



После добавления директивы боты «подуспокоились»
кажется, проблема не в фильтре, а в постраничной навигации, судя по url из логов
/catalogue/kotli/?176&filter=1&fldX=0&page=8&page=6&show=10&page=111&show=50&page=1&page=23&show=30&page=26
Для таких каталогов Crawl-delay: обязательный параметр, другой момент что есть еще куча ботов, котом на него начхать.
Тот же Бинг майкрософта, управлять им можно только из их вебмастера, зато можно выбрать время для сканирования сайта и его интенсивность.
А еще есть кучка
$badBots=array(
	  "80legs"
	 ,"AhrefsBot"
	 ,"linkpad"
	 ,"megaindex"
	 ,"BLEXBot"
	 ,"bingbot"
);

Которым приходится принудительно отдавать 403
Only those users with full accounts are able to leave comments. Log in, please.