Комментарии 52
А еще я советую сразу блокировать все диапазоны разных ЦОД от посещений вашего сайта. Все равно через их IP, выделяемые под арендованные сервера, нормальный посетитель ходить не будет, и эта мера срезает сразу 80% спама через формы.
Строго говоря — не метод. Многие используют удаленные сервера в ДЦ как proxy/VPN gateway, есть сервисы, расположенные в ДЦ и обращающиеся к сайту (различные аптайм-чекеры, анализеры и т.д.) да и сотрудники ДЦ зайти могут. :)
Специально в первом предложении писал: Это ничуть не руководство к действию…
На самом деле, проблема по большей части не в том как блокировать (все уже придумано до нас), а в том сколько настоящих пользователей не смогут воспользоваться вашим сайтом. Я считаю что вполне достаточным будет при регистрации описать механизм защиты, который работает на сайте. Опытные пользователи сами разберутся, а люди которые используют ботов не будут возиться с настройкой их специально под ваш сайт, для них важнее количество.
Нужно что-то подобное придумать для плохих, злых индусов, которые тоже спамят все вокруг. Например — регистрация на хинди. Кто зарегится — тому бан :)
А если по существу — то статья хорошая, я беру себе на заметку. Хочу сделать безопасный сайт к тому же без капчи. Поэтому подобные штуки — на вес золота.
А если по существу — то статья хорошая, я беру себе на заметку. Хочу сделать безопасный сайт к тому же без капчи. Поэтому подобные штуки — на вес золота.
Хороший бот никогда не полезет туда, где ему запрещено через robots.txt.
Гугл полезет.
Ссылка на это есть?
проанализируй логи веб сервера и увидишь без ссылки.
Может это фек боты под гугла маскируются
ага, и еще они при этом умудряются делать запросы с ip гугла
Интересно. Если Ваша ситуация не совпадает с описанной, например, [url=http://www.seonews.ru/events/detail/118613.php]здесь[/url], не могли бы Вы подробнее описать/привести статистику/написать топик об этом?
А так, у меня самого в юзер агент свитчере есть пара ботов для просмотра закрытых, но индексируемых форумов. :)
А так, у меня самого в юзер агент свитчере есть пара ботов для просмотра закрытых, но индексируемых форумов. :)
Прошу прощенья, вот ссылка (забыл переключиться с бб на хтмл).
<почти оффтопик>Хочу научиться автоматически различать двух людей, которые заходят на один и тот же сайт с одного и того же компьютера.</почти оффтопик>
половина из методов не верна для гугла
robots.txt — тут у гугла вообще свое мнение, а информация из robots.txt — это рекомендация, а не указание к действию. Очень часто страницы, закрытые в robots.txt, находятся в индексе
javascript — гугл тоже очень часто понимает, а из-за его желания индексировать ajax-сайты есть мнение, что он эмулирует работу JS. Так что это тоже не выход.
яндекс повторяет функционал гугла с некоторой задержкой, так что для него тоже многое верно
насчет печенек — мысль хорошая, только сайт-ловушку нужно делать на отдельном домене, иначе возможны проблемы с индексацией сайта. Хотя тот же самый плохой бот может не пойти по ссылке на другой домен. Так что этот метод под вопросом.
защита с формой — мысль тоже хорошая, но тут защита только от спама в комменты, от граббинга контента она не защищает.
robots.txt — тут у гугла вообще свое мнение, а информация из robots.txt — это рекомендация, а не указание к действию. Очень часто страницы, закрытые в robots.txt, находятся в индексе
javascript — гугл тоже очень часто понимает, а из-за его желания индексировать ajax-сайты есть мнение, что он эмулирует работу JS. Так что это тоже не выход.
яндекс повторяет функционал гугла с некоторой задержкой, так что для него тоже многое верно
насчет печенек — мысль хорошая, только сайт-ловушку нужно делать на отдельном домене, иначе возможны проблемы с индексацией сайта. Хотя тот же самый плохой бот может не пойти по ссылке на другой домен. Так что этот метод под вопросом.
защита с формой — мысль тоже хорошая, но тут защита только от спама в комменты, от граббинга контента она не защищает.
А что из Гугла говорят на счет таких страниц?
даже как-то не интересовался этим, я обычно добавляю мета-тег robots noindex
Гугл говорит, что по таким ссылкам категорически не ходят, однако могут добавить в индекс, если на закрытый ресурс где-то будет публичная ссылка. При этом информацию про ресурс он берет строго из ссылки, но не со страницы.
у меня есть свое мнение: robots.txt — это моя закрытая (не на замок) дверь. если кто-то ломится в закрытую дверь, хоть я и явно дал понять, что не хочу там никого видеть — то этот кто-то явно нарывается. вежливые боты уважают мое пожелание, им — заходи пожалуйста, а есть значится еще и паханы, типа Гугла, которым совершенно по барабану, что они не у себя дома?
я совершенно искренне не считаю Гугл империей зла, но хамство и беспардонность терпеть не могу, такой у меня недостаток, ничего не могу с собой поделать :(
я совершенно искренне не считаю Гугл империей зла, но хамство и беспардонность терпеть не могу, такой у меня недостаток, ничего не могу с собой поделать :(
зачем на «закрытую дверь» ставить ссылку в таком случае? Дверь закрыли, а ключик в замке остался?
Честный бот мимо пройдет
ссылка могла быть год назад. я купил недавно пустовавший домен, из-за того что он был в ДМОЗ, проверить кое что. поставил на него вордпресс и смотрю логи — тат гуглобот с пару недель по годичной давности ссылкам долбился.
Такие домены вообще отдельная тема.
какая отдельная? мне, как новому владельцу, совершенно по барабану — что находится в кеше или в индексе какой-то посторонней мне поисковой системы. робот заходит, в robots.txt русским по белому написано «в этом каталоге рыбы нет» — и все довольные расходятся по домам. чего долбиться?
Фейк-форму лучше сверстать так, чтобы посетители её вообще не видели. Но предупреждение следует оставить для тех, кто все же сможет её увидеть в экзотических браузерах.
>>Возможно капча на флеше?
Не все устройства поддерживают флэш.
Не все устройства поддерживают флэш.
По моему, с такими советами очень легко словить бан за клоакинг.
На коммерческом сайте я бы так экспериментировать не стал. Да думаю и автор сам не пробовал эти предложения на реальном денежном сайте.
На коммерческом сайте я бы так экспериментировать не стал. Да думаю и автор сам не пробовал эти предложения на реальном денежном сайте.
Все это очень классно, но нужно предусмотреть в скрипте вероятность, что злобный бот, будет использовать «хороший» юзер-югент «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)»
Если этого не предусмотреть, то можно заблокировать гуглового бота.
Обезопасится можно используя проверку по ip, возможно читатели предложчт что то еще?
Если этого не предусмотреть, то можно заблокировать гуглового бота.
Обезопасится можно используя проверку по ip, возможно читатели предложчт что то еще?
Ничего полезного не почерпнул, тем более не понял зачем мне вдруг делать какие-то фейковые формы, представляете комменты на дигге или мсдн майкрософт с такими формами? Я тоже не очень. Ну давайте положим чототам в защищенную директорию, куда-то там сделаем редирект и бот туда пойдет (при этом ддос бот туда не сунется, гуглобот скорее всего), в итоге забаним продвинутого гуглбота (а не простой краулер), сайт получит херовый индекс и рейтинг, а вы люлей…
Тот же самый яваскрипт редирект, пусть и зашифрованный можно обойти, если бота контролирует человек.
А вот флеш вроде бы неплохая идея.
Тот же самый яваскрипт редирект, пусть и зашифрованный можно обойти, если бота контролирует человек.
А вот флеш вроде бы неплохая идея.
Вы не совсем правы — у меня по моим сайтам и сайтам клиентов постоянно шарятся индусские и китайские роботы, ворующие контент. Ручки там очень кривые, поэтому роботы либо держат сессию по восем часов, либо еще каким-то хамством страдают. Причем ломятся исключительно каждый со своего адреса. Как по мне, так проще отловить такие безобразия автоматом, а список адресов скопировать в стоп-лист фаервола на сервере.
Есть ещё вариант
Как правило поля формы называют человекопонятными именами name, email, mail, post, send, fname, date, text,…
Можно эти поля не показывать пользователю(приход информачии через эти поля будет очначать что отправитель бот)
Пользователю показать поля со случайными названиями. (какое значение что значит знает только сервер и определяет по сессии пользователя)
Также можно ввести ложные кнопки для отправки формы, пользователю отображается только необходимое :)
зы: Описание некоторых методов борьбы со спамом в формы, и класс на скриптовом языке parser — Ссылка по теме
Как правило поля формы называют человекопонятными именами name, email, mail, post, send, fname, date, text,…
Можно эти поля не показывать пользователю(приход информачии через эти поля будет очначать что отправитель бот)
Пользователю показать поля со случайными названиями. (какое значение что значит знает только сервер и определяет по сессии пользователя)
Также можно ввести ложные кнопки для отправки формы, пользователю отображается только необходимое :)
зы: Описание некоторых методов борьбы со спамом в формы, и класс на скриптовом языке parser — Ссылка по теме
Правильные браузеры помогают пользователю автоматически заполнять поля со стандартными человекопонятными именами. Подставляя же что-то случайное, вы усложняете жизнь пользователю. А если пользователю приходится тратить пять минут на то, что делается за минуту, он расстраивается. Если ему приходится делать это регулярно — он может сильно расстроиться и уйти. Так что никакая борьба со злом не должна мешать хорошим людям.
методы понятные, но они, к сожалению, не панацея
за сайтом нужно следить постоянно, иначе его zas:root даже с самой навороченой «антибот» системой
можете выложить списки забаненых ip?
за сайтом нужно следить постоянно, иначе его zas:root даже с самой навороченой «антибот» системой
можете выложить списки забаненых ip?
Запретный плод сладок
вспомнилось кое что: когда я делал свой проект, в robots.txt вписал:
а при запросе файла admin4me.php накладался бан по ип на 1 год :d
вспомнилось кое что: когда я делал свой проект, в robots.txt вписал:
User-agent: *
Disallow: /admin4me.php
а при запросе файла admin4me.php накладался бан по ип на 1 год :d
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Вычисляем плохих ботов