Pull to refresh

Comments 49

Вы пришли к цифре 100 сугубо эмпирическим путём,
или вывели для себя какую-то формулу с переменными трафика?

субъективно эта цифра кажется маловатой
Пока только 10 запросов в секунду видел я, поэтому да — 100 достаточно. Завидую Вам, если этого маловато!
не может обычный пользователь открыть 10 однотипных url за 10 секунд!


Не знаю что у вас за сайт, но в общем случае ваше утверждение не верно. Я, например очень часто когда смотрю всякие, скажем так, сатый-каталоги или подобные им сайты (типа ебеев, алиэкспресса, яндекс маркета или, например хедхантера или линкедина), очень часто открою по несколько десятков страниц (заинтересовавших меня), а потом уже их рассматриваю подробнее.
Но Вы когда-нибудь устанете страницы обновлять, а бот не устанет ) Я просто запоминаю IP подозрительного хоста и перезагружаю страницу мониторинга — получаю опять последние 100 запросов и ищу там этот хост
UFO just landed and posted this here
Ответил ниже — ограничения на уровне iptables и Nginx, но это про ddos больше. Пока 95% запросов к сайту идут с Яндекса и Гугла, можно о ботах сильно не беспокоиться — это неизбежное зло)
Вас коснулся арбитраж трафика, на товарку по CPA схеме, можно позавидовать, что только сейчас.
Эта крутая идея активно живёт уже лет пять точно.
Только через вебмастера свой контент за собой столбим. Что-то закрывать — бесконечная история получается.
Почему это называется именно «арбитраж»? От слова «arbitrary?»
Это из экономики — одновременное закрытие сделок купли/продажи (трафика) и попытка заработать на разности в цене.
На тему некоторого хранилища — для себя нашел отличным решением ELK — ElasticSearch + Logstash + Kibana. Установка из коробки (или из официальных докер контейнеров), нужно немного настроить логстеш и дальше скидывать в него отчеты по каждой странице. А дальше в кибане или прямыми запросами к эластику анализировать и агрегировать на столько, на сколько фантазии хватит.
Вы вот сейчас научите плохому по поводу ботов. Мы вот собирали вполне себе безобидные данные с сайтов для собственного небольшого поисковика. Ну и короче есть небольшой процент слишком умных вебмастеров, навешивающих на себя столько всяких ограничений, вплоть до узкого диапазона айпи, что удивительно что их вообще кто-то индексирует.
А вы уверенны, что вебмастеру так прям и нужно отдавать для ваших личных нужд свои данные?
А зачем он их вообще тогда выложил?
Вот несколько вариантов:
1. для монетизации своих знаний через рекламу
2. для поиска сотоварищей увлеченных той же темой/идеей
2. для повышения своего PR рейтинга

Как видите — скачивание вашим ботом контента с сайта нисколько не вписывается в задачи вебмастера.
Ну и — 4. И уж тем более, он не видит смысла дополнительно оплачивать затраты из за нагрузки «облачного сервера» вашим ботом.

:-)
1. Вы примите как данность что всё, выложенное в интернет сразу куда-то копируется и сразу эти п.1 рассыпется на глазах, потому что монетизировать можно не знания, а блог как сервис поставки полезного контента и тут боты вам ничего не сделают.
2, 3. Копирующий бот только поможет этому.
Проблема нагрузки решается кэшированием и всяческими анти-ddos техниками. Остальное выглядит как если бы вы расклеивали объявления на улице, но запрещали людям их фотографировать.
Это как устроить концерт на Арбате, запрещать фотографировать и мимо ходить. Все таки, публичность это не только плюсы. Или мало способов создать приватный сайт?
Я вот так считаю, создавая сайт, пользуясь DNS, URL, TCP/IP и т.д., мы де-факто подписываем соглашение о публичности.
Фотографировать можно, использовать сфотографированное в своих целях, тем более с целью наживы — нельзя! (с) закон :-)

Помнится в околонулевых годах читал статью как один начинающий режиссер использовал «случайную съемку улицы» — девушка переходила дорогу в «информационном ролике» о малолетних проститутках.
Сюжет через некоторое время показали по ЦТ, девушку стали узнавать и абсолютно не верили ей, что она не занимается проституцией. Благо, что интернета, вконтактника и однокласников тогда не было, так что дело решилось переездом в другой город. Сюжет к тому времени забылся и никто ее не опознал.

Так вот — вы можете считать как угодно, но закон подобное запрещает. Просто прикиньте подобную ситуацию на себя или своих родных, а потом скажите — вы все еще за то, что бы чужую информацию можно было использовать как угодно, в том числе и в противоправных целях? :-)
А когда-то давно такое решалось с помощью Fail2ban и блокировок на уровне файерволла, чтобы веб-сервер не дергать попусту.
У нас стоят оптимистичные блокировки в iptables — 100 запросов в секунду на ip. Далее в Nginx — 10 запросов к скриптам в секунду на ip, а статика без ограничений.
Fail2ban про другое, ИМХО — он блочит айпишники, с которых много неудачных попыток авторизации. А какой смысл анализировать логи Nginx'а — понятно, что там много валидных GET-запросов.
Я предлагаю складывать последние N запросов (метаданных) в супер-быстрое хранилище (XCache), а затем, например, по крону, его разгребать и помещать провинившиеся хосты во временный бан в тот-же XCache. Если существует ячейка-ключ с искомым IP посетителя, то он будет в бане, пока не придет сборщик мусора. Критерий бана — ты не Яндекс, не Гугл, и в течение M секунд прислал K запросов. К сожалению, Яндекс не забирает у нас больше 5 страниц в секунду(
Когда-то давно писал простой shell-скрипт, который собирал статистику iptables по количеству запросов с одного IP.
Победители рейтинга (топ 100) каждые 5 минут передавались на бан этому же iptables.
Когда количество забаненных IP стало сильно тормозить файрволл, перешел на бан диапазонов.
Про динамические дорвеи, которые на лету отдают зеркала сайтов, за небольшими изменениями контента слышал года полтора назад, а тема значит живет еще дольше. А уж как монетизировать дорвей зависит от его создателя.

Т.е. скачать и отдать ваш контент Яндексу это одна часть схемы (создание дорвея), а заказ товара это совсем другая часть схемы (монетизация дорвея), которую можно сменить на другую — там могло быть перенаправление на регистрацию в игре какой-нибудь с тем же успехом, как и продажа товара.
Странно читать это как новость на хабре, ладно бы на гиктаймесе, таким фокусам уже лет 15 только в рунете минимум, сайты такие обычно долго не живут.

Кстати, посылку вам отправит некое физическое лицо, на которое и в суд не подашь — у вас нет его паспортных данных и прописки.
На почте-то есть, или Вы думаете они деньги на деревню дедушке посылают? Так что проблема с подачей в суд надуманная, не так просто решается как если бы все данные были, но не критично.

К тому же никто не мешает вскрыть посылку при получении и убедиться что там не то (вроде с почтой россии это правило для любых посылок уже маст хэв) или же увидев мошенничество заглянуть в полицию (мошенник даже деньги может не успеть получить, благо это почта россии — наложенный платеж до 2 недель может идти).
Вы пробовали беспокоить полицию с вопросом на 4000 рублей? В 99% случаях заявителю говорят сам виноват)

А насчет паспортных данных на почте — не представляю, с какой стати они Вам предоставят ПЕРСОНАЛЬНЫЕ данные отправителя.
Вы пробовали беспокоить полицию с вопросом на 4000 рублей? В 99% случаях заявителю говорят сам виноват)
А Вы всегда верите тому что Вам говорят? Заявление примут, а больше ничего Вам от полиции и не надо. Это с одной стороны. С другой стороны им галки на чем-то рубить надо? Надо, а тут почти идеальная ситуация — мошенник сам придет за деньгами, заявление от терпилы есть, бегать никуда не надо.

А насчет паспортных данных на почте — не представляю, с какой стати они Вам предоставят ПЕРСОНАЛЬНЫЕ данные отправителя.
Можно подать иск в свой районный суд приложив запрос на получение этих данных и заодно передачу дела по подсудности.
Можно адвокатский запрос сделать через адвоката.
Первое дешевле:)
Не дают на почте вскрывать посылку до оплаты. А если получателю не понравится, что внутри, тогда почте-то что с коробкой делать? Она вскрытая, ее обратно не отправишь.
Я десятки отзывов видел на тему почты — народ сначала оплачивает, потом открывает, потом идет в Интернет плакаться
Не дают на почте вскрывать посылку до оплаты. А если получателю не понравится, что внутри, тогда почте-то что с коробкой делать? Она вскрытая, ее обратно не отправишь.
По закону и правилам — обязаны дать вскрыть до оплаты и убедится что там именно то, что заявлено.
Проблемы — составляется акт, если проблем нет — посылка просто отдается.
1) до 5000 рублей — НЕ уголовное дело (сами понимаете, такое дело даже возбуждать не станут — разбирайтесь сами)
2) даже если удастся убедить полицию в том, что это мошенничество (да, кстати, вам при этом, возможно, придётся подписаться под уведомлением об уголовной ответственности за ложный донос), даже если уголовное дело заведут — ещё не факт, что они его вообще станут расследовать (спустят на тормозах — и никого не волнует, что Почта России ваш наложенный платёж будет 2 недели пересылать)
А вы не пробовали послать запрос к страницам этого сервера прикинувшись ботом яндекса или гугла? И кстати странно что этот сайт не вылетел еще из индекса, т.к. боты поисковиков помимо оф. сканов, также сканируют скрывая свое «происхождение»
Пробовал через file_get_contents с контекстом и настроенным Useragent, но получил 404 — может они ботов по DNS проверять не ленятся
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
Появляется новый сайт, на него приходит Яндекс-бот… Про то как привлечь Яндекс-бота вопрос? Ссылок на этот сайт проставьте, хоть покупных.
UFO just landed and posted this here
Да. Только представьте, что эффективнее — одна точка входа-сабмит сайта или несколько ссылок с разных ресурсов на Ваш сайт. +Сабмит (контрольный)
UFO just landed and posted this here
UFO just landed and posted this here
Я помню, что SEO-шники рекомендовали несколько ссылок дать для начала на сайт перед индексацией. Но это алхимия — нужно самому пробовать
UFO just landed and posted this here
Ну если для вас разница между «через сутки» и «через две недели» несущественна, то — да, одно и то же.
Я дико извиняюсь но инфу про 100 последних запросов можно взять из логов вашего веб сервера и не зачем для этого чтото изобретать. Или я чтото не понял
Логи лежат на диске, их нужно сгенерить и туда положить — это ресурсы системы. Еще нужно в консоли сервера сидеть и tail от файла логов смотреть — неудобно. На какой-нибудь URL мониторинга можно вывести хвост от такого лог-файла. Там время работы скрипта можно получить? Мне это критично было, чтобы производительность сайта тюнить.
Единственное, я только не понял, а средство от запоя помогло или нет?
Ради экономии в 4к быстренько мобилизовался и без средства протрезвел.
У чуваков просто крутой SEO-скилл. Вам нужен такой же.
Sign up to leave a comment.