Pull to refresh

Comments 95

идите учите матчасть, дорогой.
хм, а я рамблером не пользуюсь как-то :)
UFO just landed and posted this here
Для лучшего эффекта запрашивать не просто произвольные страницы, а делать поисковый запрос длиной в километр, начинающийся со слов «Почему наш сайти так нежно индексируют...» (простор для фантазии харбравчан). Думаю, при превышении, скажем, 100К requests per sec. ребята задумаются ;)
И запихнуть этот запрос в какой-нить 1-пиксельный гиф и вывесить на главную )
UFO just landed and posted this here
Мотороллер на Ваш ли? )
Напишите свой комментатор и комментируйте этот топик 1700 раз в секунду. Хабралюди вам в помощь.
Интересно, а кто-то из ЦА Хабра пользуется Рамблером?
Мы тоже так подумали, а потом посмотрели статистику и поняли, что не так и мало народу ходить на Хабр именно с Рамблера.
Которые вводят слово «хабр» и кликают по первой ссылке? :-)

PS
Если можно то ответьте на вопрос здесь а не в тем для вопросов вам. Откуда больше всего приходят(с яндекса, гугла и тп)? Некий Топ10.
1. google (258 515)
2. yandex (58 577)
3. live (463)
4. search (451)
5. yahoo (301)
6. msn (177)
7. altavista (8)

В скобках указано кол-во переходов за последние 30 дней (с 26.07 по 25.08).
В этом списке нет Рамблера. Google Analytics исключил Рамблер из отчета «Поисковые системы».
Жаль, что дедушка больше не с нами.
На сколько мне известно, Рамблера в статистике никогда и не было.
В общем, можно самому добавить любую поисковую система Nigma, GoGo, Mail.ru и т.д.
Вот статья на эту тему www.umade.ru/log/2007/02/209.html
UFO just landed and posted this here
В России DoS-атаки не запрещены законом
В зависимости от вашего адвоката и их прокурора ст.273 УК РФ вполне применима, а заодно и ст.274.
Хулиганство запрещено )
Я 2 месяца пытаюсь сайт в рамблер добавить — никак не хочет индексировать — вот так вот у одних чересчур, у других 0.
Напишите им в саппорт, возможно, что ваш сайт автоматически забанен. У меня так было, никак не мог понять почему он гад не ест ни одной страницы. Смущало то, что обычно поисковик кладет в индекс хоть сколько-то страниц и только потом уже может выкинуть. Оказывается в рамблере это теперь не так.

Если интересно, чуть подробнее описывал случай у себя в жж: urevic.livejournal.com/580.html
Рэмблер гарантированно индексирует те страницы, на которых стоит его счетчик. Если у вас его нет — попробуйте поставить на некоторое время.
Мне бы ваши проблемы…
*мечтательно смотрю в потолок
и зачем вам такие проблемы?=)
а, пригодятся:) мало ли, что я затею…
Я думаю, что лучше всего (если сервер на Linux) настроить limit, limit-burst у iptables на все подсетки рамблера.

могу согласиться с автором поста, рамблер в последнее время уж очень сильно начал гоняться за сайтами
например на мой сайт с рамблера каждый день идет от 500 до 700 хостов в сутки, мне столько трафика ни Яндекс, ни даже Гугль не дает — что очень печально.

Если Рамблер всё-токи оставит свой поиск, а не поставит Гугловский, я скорее буду рад, чем огорчусь — лучше хоть какое-то, но своё.
Заблокировать часть запросов, посмотреть что будет с индексом в Рамблере.
Хочется обойтись без блокировки, просто ограничить скорость. Я и не сомневаюсь, что мы это сделаем, просто у нас своя проблематика, в частности аренда Cisco Guard, это накладывает свои требования и порядок действий
Можно загнать весь траффик с подсетей Рамблера через ipfw в dummynet и резать там трубу до нужного кол-ва килобит в секунду. Запросов не уменьшится, но нагрузка упадет.
Недавно поисковые боты Яндекса ддосили мой сервер, ~50 запросов в секунду, саппорт ответил через полтора дня, к тому времени уже руками в фаере побанил любителей что-нибудь поЯндексировать :) Благо хоть извинились и сказали, что примут меры, мало того, через несколько дней прислали еще 1 письмо, опять извинились и сказали, что всё пофиксили и такого больше не повторится :)
Вот вот. Мой бедный форум на виртуалке вобще чуть не отключили из-за Яндекса, пришлось совсем индекс ему отключить.
яндекс понимает с некоторых пор Crawl-delay
Спасибо, попробую настроить роботс.
Может для рамблера отдавать кеш и раз в сутки его перестраивать?
Он слишком в широком диапазоне ходит, чтобы всё это держать в кеше
хмм может ограничить время хождения запросов? через простой шелл скрипт + иптаблы
т.е с 24 до 9 утра давать ходить например…
как-то не системно, потом он любит очень и ночью поднавалиться. Самый треш происходит в выходные, у всех поисковых систем становится какой-то буйный приступ
Очевидно, это чтобы в будни не прогружать каналы и серверы.
А забанить Рамблер до выяснения причин нельзя?
Уже банили на то время, пока занимались оптимизацией производительности. И, по сути дела, получается, что старались мы для рамблера, чтобы выдерживать эти самые 170 в секунду
Вот, а я думал он только меня так любит… Устав воевать с ним, я ограничил на фаерволе сервера лимит запросов для него. Nginx его держал легко, невзлюбил его mod_evasive, но так как этот модуль призван у меня лишь сигнализировать о возможных детских dos-атаках (при маштабной ddos- атаке от него толку нет вообще, скорее наооборот), то занесение рамблера в BL на 300 секунд отбивали у него охоту таким нахальным образом индексировать сайт ровно на сутки. Выдачу в нем не проверял, но рефералы идут с него, значит что-то он успевает все же проиндексировать
Да, у нас своя канитель, по этому не так всё просто выходит, как в случае, когда можно просто наложить ограничение на ip.

Обошлись ограничением скорости отдачи в nginx. 200 байт в секунду решают проблему
Меня так-же Гугл «полюбил», бан на iptables спас ситуацию
Гугл-то хоть robots поддерживает)
выскажу мысли:
Server: nginx/0.6.31
Date: Tue, 26 Aug 2008 18:19:58 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: close
X-Powered-By: PHP/5.2.4
Content-Encoding: gzip

— выдавать верные заголовки (Last-Modified, ETag) (заодно сделать пользователям приятное в виде заголовка Content-Length)?
— php обновить стоит
Есть такое решение nginx.

limit_zone one $binary_remote_addr 10m;



if($http_user_agent ~* «StackRambler») {
limit_conn one 1; # Пока не работает внутри if!
}

Будем решать другими способами
А что, у рамблера еще и поисковик есть?
170 запросов в секунду — то ведь цветочки.
вот когда будет 3-4 мегабита в секунду — тогда имеет смысл перекинуть днс на гугл, и пускай оно всё хоть обиндексируется.
> nginx в шаге от того, чтобы решить эту проблему

Забавное совпадение — автор nginx работает в рамблере :)
На него все надежды
И у него кроме решения проблемы с nginx как бы остается запасной вариант — исправить рамблер :-)
UFO just landed and posted this here
А глупый робот значит просто не заметит, этого редиректа и пойдёт досить рамблер, да? :-)
Наверное базу для нового поиска «улучшенного Гуглом» собирает :)
Это до вас еще GoGo не дошел. Вот где жесть.
Дошёл. К счастью, удалось найти общий язык со службой поддержки, подкрепив свои доводы журналом обращений.

Гого попался первый раз на том, что активно искал слово «google» в поиске, в то время, когда обращения к поиску были запрещены в robots.txt
Да забаньте вы его за несоблюдение robots.txt, пох кто этот рамблер купил. Это самый настоящий DoS.
10 000 посетителей в месяц
UFO just landed and posted this here
UFO just landed and posted this here
Etag, Last-Modified и Expires заголовки помогают
Кстати, на одном из наблюдаемых мной серверов рамблеровский бот, судя по логам, самый гуманный: спросит 5 страниц с интервалом в секунду и ждет минуту.
Ребята, повеселился я. Что сам топик, что комментарии к нему.
Из Рамблера клоуна сделали. По-хорошему постебались.
У нас есть проект Шахматный портал, так вот «внимание» со стороны роботов Yahoo тоже порой бывает очень даже накладным. Мы замечали по 170-200 роботов одновременно. У гугля поменьше аппетиты, но тоже порой на каждую html-страницу запускает отдельного робота
UFO just landed and posted this here
Рамблер как Россия… умом её не понять.
man iptables
ask google «iptables string»

как остановить
iptables -A INPUT -p tcp --dport 80 -m string --string 'rambler user agent uniq header' -j DROP

можно и падлу сделать и перенаправить весь их трафик на них самих
iptables -t nat -A PREROUTING -p tcp --dport 80 -m string --string 'rambler user agent uniq header' -j DNAT --to-destination $RAMBLER_IP:80

и пусть сами разбираются со своим ботом

а если не так жёстко, то вы же знаете блок адресов рамблера? дак ограничьте кол-во запросов в секунду от них
iptables -A INPUT -p tcp --dport 80 -s $RAMBLER_SRC_NETWORK -m limit --limit 10/sec

у вас админ не в курсе?!?!
Про рамблер, кстати. Смотрю так сегодня статистику, никого значит не трогаю. Дохожу до сайта, которым уже в принципе-то и не занимаюсь давно… И вижу такую картинку.
90% этих людей пришли с рамблера. Отмечу, что это не роботы, т.к. по людям есть разная статистика, да и вообще аналитикс подключается js.
Здравствуйте,

Мы сожалеем о том, что доставили вам неудобства.

Тем не менее, обращаю внимание на то, что у вас на одном ip-адресе находится более 25 000 хостов. Мы поддерживаем Crawl-delay и качаем не более некоего разумного количества документов с одного хоста в секунду и при этом не устанавливаем одновременного подключения к одному ip-адресу с нескольких наших адресов. Однако в данной вырожденной ситуации именно такое кол-во хостов привело к данной ситуации.

Кроме того, в связи с недавними изменениями вашего дизайна изменились практически все урлы документов, но наш робот перекачивал старые урлы и получал HTTP-ответ 302. Один такой ответ очень маленького размера, и nginx должен быстро с ними справляться.

Вариант решения данной проблемы — настроить ваши сервера на ограничение скорости отдачи конкретному user-agent. С нашей стороны повторения такой ситуации произойти не должно и активность робота постепенно сойдёт на нет, так как база урлов обновилась.

С уважением,
Дмитрий Федорук
Разработчик поискового отдела Рамблера
Здравствуйте, спасибо за вразумительный ответ.

Но 25 000 хостов это ведь не предел. Учёт фактических ip-адресов, с которых запрашиваются документы в данном случае не представляется лишним. Иначе дериктива Crawl-delay становится просто бессмысленной.
Ещё раз повторю — в один момент времени мы подключены к одному ip-адресу только однажды, в рамках одной сессии выкачки. За эту сессию мы выкачиваем, к примеру, максимум 5 документов с одного хоста. С вами ситуация такая — выкачали 5 документов с хоста a.habrahabr.ru, больше этот хост не трогаем некий промежуток времени, но в этой же сессии выкачали 5 документов с хоста a1.habrahabr.ru и так далее. Crawl-delay cмотрит на хост, а не на ip-адрес. Обработка ip-адреса — мысль хорошая, но никто не даст гарантии, что у данного хоста завтра не поменяется ip.

С такой же ситуацией (много хостов на одном ip) обычно сталкиваются фри-хостеры, но у них это затруднений не вызывает.
Это понятно, но, по сути дела, получается, что если брать не математический момент времени в виде бесконечно малой величины, а то, что все привыкли воспринимать умом — секунду, то получится несколько десятков соединений в секунду, что мало кто любит.

Некоторая недооценка действительности всё же имеет место.
14:26:51 — 150 обращений :-)

Продолжаете жечь

Мне кажется, ясно описана проблема и методы её решения. Дальше дело за вами.
За нами не заржавеет, будьте спокойны
на netradio.by мы вынуждены были забанить индексатор Рамбера, т.к. он запрашивал более 150 запросов в секунду, что вызывало громадную нагрузку на сервер, в то время выдерживающий лишь 100-130 =) Он просто складывался .)
А почему нельзя банально написать в nginx

if ($http_user_agent ~ «Rambler»){
set $limit_rate 100;
}
Можно. Всё же хотелось получить компетеных комментариев, что, собственно, и вышло в итоге.
Но тут не так всё просто, как хотелось бы: надо сначала убедиться, что весь ответ от бэкенда останется в буфере nginx, а тот сможет заниматься своими делами дальше. Занимать апачи медленной выдачей как-то не очень хочется
сразу не скажешь, время покажет
при ограничении в 1k проходит 150 запросов :-) Можно, конечно, меньше поставить, но мне кажется, что мы что-то не так понимаем.

Рамблер водит нас за нос :-)
Судя по всему, 200 байт в секунду — это наше всё, хотя, пока точно сказать не берусь
Наверное имеет смысл поставить такое ограничение на все поисковики… А еще лучше сделать обратное ограничение по известным user agents браузеров

if ($http_user_agent !~ «monit|HostTracker|Pingdom|MSIE||Yandex|Opera|Firefox|Safari|Konqueror|SymbianOS»){
set $limit_rate 200;
}
Не знаю, зачем всех обламывать по дурному примеру. Как-то доверие надо сохранить, всё же
UFO just landed and posted this here
с яндексом боролся так:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} yandex [NC]
RewriteRule .* /shit/huyandex.html [R]
Only those users with full accounts are able to leave comments. Log in, please.