Pull to refresh

Попытка глобального влияния на поисковые системы

Прикрутил на некоторые свои сайты скрипт анти-бота, который не дает ботом свободно дышать и банит их при сканировании сайта. Этот скрипт давно показался мне полезным, так как избавляет от роботов, которые ищут на сайте уязвимости. Также этот скрипт избавляет от назойливых поисковых роботов, увеличивающих нагрузку на сервер, но не приносящих никакой пользы, например, переходы с поисковых систем, которым принадлежат эти боты, минимальны, их нет или их не может быть в силу ряда причин.

Таким образом, добавление некоторых полезных ботов в список исключения позволяет полезным ботам получать всю полноту информации.

Например, список полезных ботов, которые не будут забанены скриптом анти-бота:

$f->AddAlowAgent(«Googlebot»);
$f->AddAlowAgent(«Googlebot-Image»);
$f->AddAlowAgent(«Googlebot-Mobile»);
$f->AddAlowAgent(«MSNBot»);
$f->AddAlowAgent(«msnbot-media»);
$f->AddAlowAgent(«msnbot-products»);
$f->AddAlowAgent(«msnbot-news»);
$f->AddAlowAgent(«MSNBot-NewsBlogs»);
$f->AddAlowAgent(«Mediapartners-Google»);
$f->AddAlowAgent(«Adsbot-Google»);
$f->AddAlowAgent(«Yahoo-MMCrawler/3.x»);
$f->AddAlowAgent(«Yahoo-MMCrawler»);
$f->AddAlowAgent(«yahoo-slurp»);
$f->AddAlowAgent(«Yahoo! Slurp»);
$f->AddAlowAgent(«yahoo-mmcrawler»);
$f->AddAlowAgent(«yahoo-blogs/v3.9»);
$f->AddAlowAgent(«live»);
$f->AddAlowAgent(«livebot»);
$f->AddAlowAgent(«altavista»);
$f->AddAlowAgent(«altavistabot»);
$f->AddAlowAgent(«Mail.RU_Bot/2.0»);
$f->AddAlowAgent(«msnbot»);
$f->AddAlowAgent(«Slurp»);
$f->AddAlowAgent(«Teoma»);
$f->AddAlowAgent(«Slurp/cat»);
$f->AddAlowAgent(«bingbot/2.0»);


Также возможно добавить в список исключений ip адреса по маске, например:
$f->AddAlowIP(«188.72.80.»);

Это бывает полезным для работы, напрмиер, с Сапой и другими площадками, где у ботов нет и не может быть имен.

Теперь посмотрим, что показывает 1/100 часть файла лога за сутки после запуска такого анти-бот скрипта:

2012-11-25 20:18:40 [173.199.116.195|173.199.116.195] Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)
2012-11-25 20:25:48 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-25 20:26:25 [180.76.5.158|180.76.5.158] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-25 20:38:01 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-25 20:48:23 [180.76.5.146|180.76.5.146] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-25 20:54:17 [180.76.5.160|180.76.5.160] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-25 20:57:15 [180.76.5.63|180.76.5.63] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-25 20:57:34 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-25 21:03:12 [180.76.5.137|180.76.5.137] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-25 21:09:50 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-25 21:42:09 [81.144.138.34|81.144.138.34] Wotbox/2.01 (+http://www.wotbox.com/bot/)
2012-11-25 21:45:04 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-25 21:54:11 [180.76.6.227|180.76.6.227] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-25 22:27:33 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-25 22:50:42 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-25 23:51:38 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-26 00:10:46 [180.76.5.175|180.76.5.175] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-26 00:14:02 [180.76.6.225|180.76.6.225] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-26 00:17:00 [180.76.5.51|180.76.5.51] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-26 00:18:54 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-26 00:19:58 [180.76.5.166|180.76.5.166] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-26 00:22:55 [180.76.6.35|180.76.6.35] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-26 00:25:54 [180.76.5.60|180.76.5.60] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-26 00:28:52 [180.76.5.113|180.76.5.113] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-26 00:34:47 [180.76.5.58|180.76.5.58] Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
2012-11-26 00:45:29 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-26 01:05:32 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-26 01:22:45 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
2012-11-26 02:05:35 [95.108.247.252|95.108.247.252] Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)


Как видно, львиная доля ненужной нагрузки на сервер приходит от китайского поисковика Baidu и от российского поисковика Яндекс. Есть также много переходов от различных мелких ботов, а также качалок, которыми пользователи пытаются скачать сайт или найти на нем уязвимости (они в логе не показаны, но они есть). Переходы с китайского поисковика Baidu мне совсем не нужны, так как за много лет отдача от китайских пользователей равна нулю. В тоже время, Baidu ведет себя очень агрессивно, обращаясь к сайтам сервера в многопоточном режиме и достаточно часто, что добавляет некоторую нагрузку на сервер, иногда ощутимую. Что же касается Яндекса, то согласно файлам лога Statcounter, переходы с Яндекса на мои сайты минимальны. В то же время, переходы с поисковика Google составляют 99% и достаточно многочисленны.

Из этого можно сделать несколько выводов. Самый простой из них: сайт не оптимизирован для выдачи в Яндексе. Более сложный вывод: данные в поисковой выдаче на Яндексе не являются правильными, релевантными. То есть Яндекс проводит свою собственную политику, направленную прежде всего на удовлетворение собственных нужд в ущерб релевантности выдаваемой информации.

Побочным эффектом использования такого бесплатного анти-флуд скрипта, если он или его разновидности, которые не сложно сделать самому для опытного программиста, буду массово распространены среди пользователей сети, может быть глобальное управление компаниями наподобие Яндекса и других. Ведь если пользователь запрещает поисковому боту Яндекса сканировать свой сайт, как это советует техподдержка Яндекса, а именно прописывает необходимые команды в файл .htaccess, то бот YandexBot не тратит время на такой сайт. Но если работает скрипт анти-бота и запрещающих директив для бота Яндекса в .htaccess нет, то бот YandexBot продолжает тратить ресурсы серверов Яндекса, сканируя сайт. Но ему не отдается ничего, кроме 1-3 страниц сайта. Таким образом, релевантность и объем информации, добытой ботом Яндекса стремительно падает. Как следствие, пользователи в глобальных масштабах переключаются на другие поисковики, такие как Google или Bing.

В качестве дополнения, можно также отметить, что в вышеприведенном файле лога отмечен также постоянно гуляющий по сайту бот AhrefsBot. При переходе на сайт этого бота становится понятно, что данный ресурс предоставляет платные услуги сравнения релевантности ключевых слов между вашим сайтом и сайтами конкурентов. Вполне вероятно такое развитие событий, когда пользователи будут вылавливать такие боты благодаря таким лог-файлам, не требующим глобального анализа логов сервера Апач и других логов, так как данный анти-бот скрипт очень прост в установке и чтение логов не требует доступа выше папки www сервера. В результате, владельцы сайтов могут обращаться к владельцам ресурсов наподобие AhrefsBot, извлекающих негласную прибыль из их труда, с предложением заключить договор на доступ бота к своему сайту. Практика показывает, что при единичных обращениях с предложениями заключить договора с владельцами малоэффективных или скомпрометированных ресурсов наподобие Яндекса или AhrefsBot о предоставлении платного доступа их ботам на ресурсы пользователя, владельцы Яндекса или AhrefsBot остаются глухи к таким предложениям. Но, если будет достигнут массовый эффект блокировки ненужных ботов, можно будет повернуть реки прибыли вспять, и бизнес, основанный на сборе информации ботами, будет зависеть от пользователей, а не наоборот как в наше время.
Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.