Как стать автором
Обновить

Комментарии 106

Робот ходит и грузит страницы сайтов, игнорируя robots.txt и создавая тысячи запросов в минуту на сервер на котором несколько сотен сайтов…
Бесплатное нагрузочное тестирование.
(«несколько сотен сайтов») * (несколько запросов в минуту) = (несколько тысяч запросов в минуту)

Вроде всё логично, то же самое будет и с обычными пользователями.
Ну и подробности тоже интересны, что у вас за сайты такие, которые сотнями помещаются на сервер, и в чём заключается игнорирование robots.txt?
Да какая разница, что у меня за сайты? — обычные скромные сайтики с посещаемостью в среднем по тысяче человек в сутки, сайтов таких пара сотен, для пользователей они живут нормально… Но есть кривые сервисы типа solomono (который давно забанен), и вот этого «электронного правительства» которые приходят раз в неделю и пытаются загрузить сразу все страницы (их по паре тысяч в среднем на каждом сайте) со всех сайтов одновременно игнорируя прописанные в robots.txt директивы о частоте запросов, в результате перегружают сервак и страницы начинают открываться по 30 секунд…

но пост не только об этом, но и о том какого вообще этому «электронному правительству» надо?
Больше похоже, что пост об умении пользоваться iptables.
А какой хоть порядок задержек?
А воспользоваться методом через кольцевой DoS не пробовали? Тогда чем активнее они будут индексировать — тем хуже для них.
все правильно делает
Так, может, этому роботу скормить какой-нибудь гадости? Например, несколько гигов контента на небольшой скорости. Пускай хоть закачаются!
Своп?
Лучше автоматически генерировать страницу при запросе. бесконечно много страниц :)
/dev/urandom — настало твое время!
А они там пиратский контент случайно не найдут?
109.207.0.0/20 только.
Запросы идут идут только с 109.207.13.0/24
А вы проверьте свои логи…
Я полагаю, что они не додумались отдать роботу 65тысяч ip-адресов… хотя с них станется…
Про их ip на своем сервере могу сказать
109.207.13.122
Заходил ко мне последний раз 27/Aug/2013:15:17:40
НЛО прилетело и опубликовало эту надпись здесь
Ну и как, вас тоже ддосит?
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
ко мне тоже заходил
<sarcasm type="I hope so">Может прежде чем создавать интранет, они решили заранее все проиндексировать для рос-поисковика</sarcasm>
Яндекс и так ведь есть.
Ну при том что существует например ivi, ростелеком запустил забаву.ру, тем самым став конкурентом. За исключением блокировок сайтов(например wordpress.com, приходится через tor там гулять), я не вижу причин не быть клиентом ростелекома, потому что интернет у них явно хороший, на протяжении последних 2-3 лет(не помню когда они онлайм купили).
С чего бы им теперь не запустить поисковик? Думается мне гугл не просто так хотят провайдером стать?)
Яндекс — это не российская компания. Это ООО, учереждённое то ли нидерландским, то ли датским офшором.
НЛО прилетело и опубликовало эту надпись здесь
Типа и «10 правил бизнеса в России» не делают бизнес в России бизнесом не в России. И умерший в лондонской больнице CTO/сооснователь — это признак истинно российской, из «новой двадцатилетней России» компании?!

ic.pics.livejournal.com/sly2m/9519071/241761/241761_original.jpg

НЛО прилетело и опубликовало эту надпись здесь
Материнская компания
Нидерланды, Yandex N. V. (100%)
Вики
Думаете будут вносить в черный список всех кого не удалось проиндексировать? :)
Да вроде Ростелеком не издаёт законы, а в следующем году государство планирует вообще продать свой пакет акций.
Добрый день. Законы не издаёт, но как инструмент очень удобен ввиду последних законотворческих излияний.
Доступ в интернет по приницпу white-list
Они анализируют упоминания слов «Путин», «Медведев» и т.п.
а чем «т.п.» то им не угодила?
оральный секс хочет запретить.
НЛО прилетело и опубликовало эту надпись здесь
А я бы отметил «разжигание ненависти к определенной социальной группе».
В общем, был бы сайт — повод его закрыть (возможно, вместе с хозяином) найдется, при желании. Пиратский контент, суицид, ненависть, наркотики, шутки-фэйки про депутатов, что угодно — даже нелицензированный шаблон.
На мой взгляд, нужно забанить всех и каждого, кто имеет отношение к трем ветвям власти. Это будет справедливо — предать их общественной анафеме.
«разжигание ненависти к определенной социальной группе»
Цсс… Вдруг кто что не то подумает!
Варианта два — либо строят коммерческий сервис, либо пилят бюджет на какой-нибудь самостоятельной системе поиска запрещенного контента и т.п., потому что яндексом и гуглом можно пользоваться для этой задачи сколько угодно, но это же не сертифицированные отечественные средства, и денег на их использовании не заработаешь. :)
О! Вы — гений!

Отличная идея, создаем черный список айпишников — депутатский корпус, роскомнадзор и прочие выходы в сеть госслужащих и не показываем им контента. Только для них «Service Temporarily Unavailable» :)))

А что — только им разве можно блокировать сайты, можно и наоборот, им показать кукиш, пусть сами выкручиваются.
Да ладно, они и недоступность сайтов запретят. Тоже мне, проблема :)
Скажут что домены принадлежат госудраству в ru/рф зоне. А остальные запретят использовать. Если сайт недоступен значит тебе домен не нужен.
Не подсказывайте ) Двухходовки для них слишком сложны, чтобы придумать самостоятельно.
Мне интересно до какого момента будет продолжаться весь этот абсурд. Ну и я жду что благодаря этому активно будут развиваться i2p и mesh-сети, а может и что совсем новое появиться. Гонка вооружений всегда способствовала прогрессу. Только вот у государства ресурсов и рычагов давления больше, к сожалению.
Они достали уже всех (то есть вообще всех, геев до науки). Я думаю раньше.
Прогноз: или Навальный — мэр, или 93й год (или когда там под белым домом танки стояли?).
Склоняюсь ко второму варианту. Ага, я пессимист.
Он хотел, чтобы божественное ее око сжигало демонов адским пламенем, хотел воздать им террором за террор.
Так настал 93 год.

Виктор Гюго. Девяносто третий год.
Это не то, чего я хочу. Это то, к чему всё идёт.
НЛО прилетело и опубликовало эту надпись здесь
Есть другие варианты кроме как развивать технические средства? Я очень скептически смотрю на петицию. Когда рассмотрят будет видно уже можем ли мы что-то сделать законными методами.
НЛО прилетело и опубликовало эту надпись здесь
Наверняка можно сделать такое техническое средство, в которое они руки засунуть не смогут.
НЛО прилетело и опубликовало эту надпись здесь
Ох, какие большие у этого устройства USB-портыыыы
Это сэндвич-порт.
Запретят запрещать?
легко решается, надо не «Service Temporarily Unavailable» им показывать, а заглушку-страницу с текстом «Здесь нет пиратского контента, пропаганды гомо- и педофилии, суицида и далее по списку»
Я давно такое предлагал. Предложил Пиратской партии этим заняться — их почему-то не заинтересовало.
piratehost.net Раздел «Фичи»
Вот именно после того как они такое сделали на своем хостинге, я им предложил сделать список таких IP открытым. Что-бы и другие могли его использовать.
Я тоже про этот открытый список подумал. Желательно создаваемый сообществом, что-то типа вики-системы.
А для особо ленивых ещё и файликами скрипты с правилами для популярных фаерволов типа iptables/ipfw и тд.

Можно даже на гитхабе всё это держать.
В принципе, было-бы достаточно информации о пулах IP адресов, принадлежащих правительству и гос. организациям. Если знать откуда их взять — можно начать это делать и без поддержки пиратской партии.
Не-не-не, у нас эти идеи уже с прошлого года витают, кое-какие наработки в этом плане уже есть.
Ими заведует ChooJoy, просто у нас у всех многозадачность зашкаливает, рук не хватает, а государство подкидывает каждую неделю новые заботы. В перманентном цейтноте находится костяк деятельных людей в ППР.
Так что это очень перспективная идея и мы вполне можем вписаться со своими наработками в процесс.
Подозреваю что поиском неугодных сайтов могут (смогут) заниматься подрядные коммерческие компании. Их тоже нужно будет как-то идентифицировать и вносить в такой список.

Или ловушки для депутатов (и сопричастных) на сайтах делать? Заметная ссылка «здесь детское порно». Все IP, с которых заходили по этой ссылке — в бан. Зашедшим в первый раз — заглушка «детское порно убрано по распоряжению правительства», от греха.
Этого пула — мало, нужно централизация. Размещаем на своих ресурсах «php» с функцией ip2mail и неудобоваримым именем, сдаем этот url роскомнадзору, формируем блэклист и раздаем его, например, по DHT + добавляем заведомо «government»
Вот пора уже наверное сделать альтернативный «черный список», туда внести подсети всех **надзоров, правообладателей, и прочих борцов против интернета, ну и Милонова вычислить по ip =))
Постоянно обновлять его, а контент-генераторы смогли бы ежедневно делать свежую выгрузку и добавлять в фильтры на хостинге. Они нас — мы их, все честно =)
In Soviet Russia websites block electronic government.
Аналогичная история с Electronic-government была у меня примерно год назад. Пришлось забанить 109.207.0.0/20.
Пожалуй тоже заблочил на своих серверах эти подсети. Нечего им там смотреть.
Кстати, почему реально нет такого сайта с обновляемыми списками ип-адресов всех этих «правительств» включая роскомнадзор и прочих?

Идею можно неплохо продвинуть, это действительно усложнит им блокировки.
Могу добавить дополнение для Вашей идеи.
Сделать страницу, указать её в robots.txt (заметил что они скачивают его и пытаются пройтись по всем указанным в нём адресам), при заходе на которую IP попадал в black-list и банился на файерволе.
Поисковики «ходят» по таким страницам, даже не смотря на то, что они прописаны в robots.txt. Мысль, правда, хорошая, просто надо сделать условие ещё более гибким и блочить не жёстко на всю жизнь, а на 1 час хотя бы. Это значительно уменьшит их скорость работы в отношении ваших ресурсов.
Хех. Ровно год назад хосты из этой /24 сканили наши внешние адреса на предмет tcp:80
При этом у нас веб-а своего отродясь не было, но домен свой есть, да.

Но это еще что. Работал я как-то в вузе в начале нулевых и однажды внешний адрес институтской транспарент-прокси просканали из сетки яндекса нехило (несколько раз по кругу все 65535 портов). Когда попытался выяснить, в чем же дело, ответ был примерно в том русле, что дескать подозрение на анонимный прокси, ряд поисковых запросов с вашего ip нарушил какую-то там политику поисковика. Надо было сохранить ту переписку для истории.
И кстать (глянул внимательней) — не только из этой (/24). Из других подсетей класса С, что показывает хуиз.

Вот например

109.207.1.108
gu.gas-u.ru

Авторизации просит.

HTTP/1.1 401 Unauthorized
Content-Length: 83
Content-Type: text/html
Server: Microsoft-IIS/6.0
WWW-Authenticate: NTLM
MicrosoftSharePointTeamServices: 12.0.0.6318
X-Powered-By: ASP.NET
Date: Tue, 27 Aug 2013 13:46:26 GMT
Connection: keep-alive
Гхм, прикольно. Из агрегированной статы залез в тектсовые логи — это были вообще обращения на RDP и MSSQL.
Так это молодые единоросы же.

Молодые единороссы начали сотрудничество с Роскомнадзором в феврале этого года, причем, по словам Гурьянова, за этот период в интернете была заблокирована 1701 единица противоправного контента. В конце июня молодежное крыло партии власти запустило специализированную программу-поисковик, которая самостоятельно (по заданным характеристикам и ключевым словам) находит сайты, содержащие противоправный контент.
Эх! Такие молодые, а уже такие единоросы.
Распилу все возрасты покорны.
А там уже от самого человека зависит — как глубоко в нем сидит внутренний единорос.
Получается, что
#iptables -A INPUT -s 109.207.13.0/24 -p tcp -j DROP

просто самый лучший вариант защитить свои сайты от подобного рода проверок? По крайней мере автоматических проверок.
автоматические проверки могут работать и по выдаче Яндекса или Гугла. Получается, надо и их банить. С другой стороны, если с контентом всё ОК, чего бояться?
Нагрузка. Может ресурсы сервака изначально не рассчитаны на большую популярность. Типа той же свалко орг. Ходит туда несколько сот человек и всё. Никаких аудиторий в десятки тысяч человек там нет.
Как тут пишут, запрос один раз в 2 секунды (или ползапроса в секунду) — это разве нагрузка?
Ко мне тоже сегодня утром зашли и за полчаса сделали 900 запросов. Потом сами перестали заходить. User agent: Mozilla/5.0 (compatible; SearchBot). Кстати, заходит уже с 18 июля.

JavaScript их робот не понимает, во всяком случае не использует для переходов между страницами. (Если бы использовал, были бы POST-запросы, а там только GET.) Впрочем, и без JavaScript он скачал немало, например почти все анкеты пользователей.
получается где-то запрос в 2 секунды?
Примерно так. В robots.txt интервал не был указан.
А в чем проблема? То, что на ваш сайт ломятся из правительственных адресов? То, что игнорируется robots.txt, что является логичным действием? Или у вас там с контентом не все хорошо?
С правительством не всё хорошо
Конкретно в данной ситуации проблема в том, что сервак автора ддосит робот электронного правительства, игнорируя robots.txt, но:

1. Автор разместил «пару сотен сайтов» на «одном сервере», при параллельном доступе к сайтам очевидно будет много запросов;
2. Автор не привёл никаких данных, подтверждающих нарушение правил для роботов — ни примера robots.txt хотя бы одного сайта, ни кусков access.log хотя бы одного сайта;
3. У двух комментаторов к топику робот из этой подсети качает страницы с задержкой не менее 2 секунд, даже если задержка явно не указана в robots.txt. Т.е. ддосом назвать это сложно.

Ну а вопрос: «Спрашивается, что им надо от моих сайтов?», по-видимому, риторический. Кто ж здесь на него ответит?
Тут скорее вопрос не в игнорировании robots.txt, т.к. это правило работает для поисковых систем, т.е. тех, которые индексированный контент возвращает в массы(да и как известно стандарты можно не соблюдать при желании). Понятное дело, что некая система анализа может его игнорировать, т.к. скрыть от глаз в robots.txt можно все что угодно, а это не отменяет самого анализа сайта. Техническая сторона тоже отпадает, т.к. наверняка там ещё боты поисковиков тусуются, а автор не говорит, что они так же валят его сайты. Хоть я и не админю «сотни сайтов», но частенько приходилось помогать давнему приятелю с его корпоративным сайтом, и я там не видел ДДОСов с этих адресов(хотя это назвать аргументом сложно).
Поэтому скорее всего вопрос не риторический, а политический и на него, судя по всему, уже ответили :-)
А ведь интереса ради, не надеясь ничего увидеть, решил проверить логи на своей страничке (абсолютно ничего особенного, небольшая утилитка, в день около сотни хитов), и что я вижу:
02.08.2013 22:43:30 — 109.207.13.22 — Mozilla/5.0 (compatible; SearchBot)
16.08.2013 06:41:44 — 109.207.13.132 — Mozilla/5.0 (compatible; SearchBot)
23.08.2013 08:33:44 — 109.207.13.43 — Mozilla/5.0 (compatible; SearchBot)
Глянул дальше августа, первое упомянание аж в марте:
21.03.2013 16:04:18 — 109.207.13.37 — Mozilla/5.0 (compatible; SearchBot)

У них вроде и планов на блокировку сайтов тогда не было?
наблюдаю массовый обход всех страниц сайта
с 109.207.13.14, 109.207.13.86 с юзерагентом «Mozilla/5.0 (compatible; SearchBot)»
может их по юзерагенту банить на нгиксе еще? правда толку от этого…
Кстати! А что мешает выдавать рекапчу на заход с такой подсети?
Вырубит начисто роботов и создаст минимальные неудобства легитимным пользователям.
Автор, приведи запросы из сети ЭП, приведи свой robot.txr

А то пока это выглядит как истерика на фоне вирусной активности в сети «Электронного правительства».
Кстати, а что если написать туда официальный запрос по поводу создания нагрузки на сервер, может ответят? В WHOIS есть же какие-то email адреса:
$ whois 109.207.13.1
...
abuse-mailbox:  ripe@rt.ru
...
Перед блокировкой госсайтов их нужно спрашивать о наличии ордера на обыск.
Посмотрел статистику по 24м сайтам на одном сервере. Все сайты используют ColudFlare

Запросов с 109.207.13"
$ grep «109.207.13» access.log | wc -l
28391

Общее количество запросов в логе:
$ cat access.log | wc -l
809603

Лог c 24/Nov/2013:06:27:53 по 27/Nov/2013:11:35:59
Итого 3,5% от общего количества запросов идет с 109.207.13.*

Максимальное количество запросов в минуту (сорри за адское выражение sed):
$ grep «109.207.13» access.log| cut -d " " -f4 |sed «s/[0123456789][0123456789]$//» |uniq -c | sort -g | tail -n15
88 [25/Nov/2013:00:54:
88 [25/Nov/2013:01:02:
88 [25/Nov/2013:01:03:
89 [25/Nov/2013:00:50:
89 [25/Nov/2013:00:57:
89 [25/Nov/2013:01:04:
89 [25/Nov/2013:01:07:
90 [25/Nov/2013:00:55:
90 [25/Nov/2013:00:58:
90 [25/Nov/2013:01:05:
91 [25/Nov/2013:00:56:
91 [25/Nov/2013:01:01:
91 [25/Nov/2013:01:06:
91 [25/Nov/2013:01:09:
93 [25/Nov/2013:01:08:

Максимум 93. Можно еще посчитать, сколько раз за три дня достигается интенсивность более 1го запроса в секунду, но уже лень… Вот думаю, банить их, или нет? Не будет ли негатива после этого? Бывало, что приходили запросы от фсб дать айпи автора того или комментария…
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации