Pull to refresh

Защита от контентных воров

Reading time2 min
Views490
Когда делаешь сайт с большим количеством уникальной информации и начинаешь зарабатывать на трафике с поисковиков, бывает очень обидно, когда кто-то скачает сайт целиком и отнимет у тебя половину посетителей. Поэтому мною в рамках борьбы с вышеозначенной проблемой была разработана простая, но эффективная защита.



Смысл защиты состоит в том, что сводка о запросах с подозрительных IP высылается админу, а он смотрит человеческим глазом и определяет, робот это или человек, после чего блокирует или наоборот, разрешает запросы с данного IP.

Подозрительность IP-адреса определяется по количеству запросов в заданный период времени.

Сводка берется grep-ом из лога веб-сервера, в письме админу сразу дается WHOIS-информация, и ссылки на запрет/разрешение адреса.

Через некоторое время у админа вырабатывается наметанный глаз, который сразу отличает робота от человека, обработка такого письма занимает несколько секунд.

Есть несколько явных отличий робота от человека, которые сразу заметны в логе:
1. Человек загружает все картинки, скрипты и сценарии со страницы, роботы часто только HTML.
2. Человек тратит разное время на чтение разных страниц, робот чаще всего быстро запрашивает страницы одну за другой.
3. Проход человека по страницам сайта логичен, робот либо перебирает все ссылки на странице подряд, либо запрашивает те, ссылки на которые вообще нет на текущей странице.

Итак, мы определили вора и заблокировали ему доступ, допустим, мы делаем задержку на несколько секунд и выдаем пакет мусора вместо страницы. Но вор не дурак и сразу поймет, в чем дело и встроит в свою качалку простую проверку и, в случае включения блокировки, просто поменяет свой IP.

Но сила-то в правде, а правда у нас, поэтому мы применим очень коварный прием, который я опишу в следующий раз, и вор останется в итоге с горькой досадой, обидой и разочарованием.
Tags:
Hubs:
Total votes 18: ↑4 and ↓14-10
Comments24

Articles