MadJeck Aug 10 2009 at 18:14

Интересный способ защиты от ботов

1 min

14K

Website development*

+55

Comments 74

remal Aug 10 2009 at 18:22

Когда я писал парсер, я страницу преобразовывал в XML и работал с ней через XPath.
А вообще надо писать парсер на основе браузера и тогда на все пофиг будет.

sl_bug Aug 10 2009 at 18:22

selenium rc + phpunit например :) довольно интересный парсер выходит

kurokikaze Aug 10 2009 at 20:38

Не тяжеловат будет? :)

sl_bug Aug 10 2009 at 20:39

тяжеловат, зато результат адекватный всегда и геморроя меньше. хотя тяжелость зависит от сервер, где это крутится :)

MadJeck Aug 10 2009 at 18:25

Я свой парсер писал во времена php 4 и тогда слова DOM не знал вовсе, думаю не у меня одного парсер на регулярках :)

Error_403_Forbidden Oct 21 2012 at 20:09

Это будет работать, если веб-страница well-formed, т.е все тэги корректно вложены и правильно открыты/закрыты

sl_bug Aug 10 2009 at 18:22

я в своем парсере всегда делаю html_entity_decode :) т.к. часто встречаються нужные данные, которые в таком виде, не очень удобно читать.

david_mz Aug 10 2009 at 18:38

Ну, если Ваш парсер такой… простой, то нет надо думать, что и остальные такие же. Понимать энтити — это базовое умение любого парсера, думаю, и спамерские это прекрасно умеют.

Кстати, и remal выше совершенно прав насчёт использования готового браузерного движка.

MadJeck Aug 10 2009 at 18:44

Если так думать то любая защита примитивна, да можно обойти любую защиту (благо имею опыт в этом деле). Но в некоторых случаях лучше поставить защиту «от дурака» чем нервировать пользователя. А этот вариант мне кажется достаточно красивым.

kolen Aug 11 2009 at 06:36

Спамят обычно всякие школьники, поэтому парзеры у них соответствующие.

david_mz Aug 11 2009 at 06:38

Откуда такая статистика?

kolen Aug 11 2009 at 06:44

Кто еще будет спамить ссылками, скрытыми в <div style=«display: hidden;» >? Ясно же, что поисковики такое сразу определяют. А спамят и очень много.

ConstNW Aug 11 2009 at 09:46

поисковики определяют что?

kolen Aug 11 2009 at 09:51

Школьники спамят чем?

ConstNW Aug 11 2009 at 17:49

причем тут чем спамят?
я про «поисковики такое сразу определяют». какое такое? О_о

gro Aug 10 2009 at 18:43

blgo.ru/blog/2009/06/05/antispam/ — здесь несколько подобных примочек описаны.

UFO landed and left these words here

Selector Aug 10 2009 at 19:09

хороший способ… возьму на заметку, буду пользовать в комплексе со способом топика.

bobermaniac Aug 10 2009 at 19:09

А потом без яваскрипта ваш сайт не отображается вовсе. Клево. Шикарно.

Selector Aug 10 2009 at 19:14

Зачем так категорично? Нет яваскрипта будте добры, проходите тест Тьюринга.

maxshopen Aug 10 2009 at 19:45

Да но откуда возьмется сама форма, если она в JS-файле?

kurokikaze Aug 10 2009 at 20:39

Ну после капчи её можно показать и в HTML :)

UFO landed and left these words here

maxshopen Aug 18 2009 at 08:27

За хамство не сочту, но к чему вы привели этот код я не понял. Он будет работать при выключенном JS?

UFO landed and left these words here

maxshopen Aug 19 2009 at 14:18

Я спросил откуда возьмется форма если отключен JS, а сама она в JS-файле лежит, по-моему по контексту ветки это должно быть понятно.

Меня не смущает ничего, из того, как работают (или не работают) стартапы. Корпоративный сайт обязан поддерживать функциональность по максимуму, и с отключенным JS тоже.

UFO landed and left these words here

bobermaniac Aug 18 2009 at 14:36

Это не показатель качества проектов. Это показатель количества мудаков.

UFO landed and left these words here

rhrn Aug 11 2009 at 20:39

минус — не получиться Unobtrusive Javascript

slatvick Aug 10 2009 at 18:48

Интересный, а главное простой способ. К сожалению, как и многое другое, он будет служить очень короткий срок.

fog Aug 10 2009 at 18:52

Помойму — гораздо проще добавить в поле скрытое средствами CSS поле, с именем, например «message». В принимающем скрипте проверять — если поле пустое — всё нормально, если заполнено (а бот заполнит обязательно), то блокировать такое сообщение. Делов-то.

WASD42 Aug 10 2009 at 18:59

Почему это бот обязательно заполнит? :) Чуть более продвинутый бот проверит все CSS-наследования и запросто поймёт, что туда писать не надо. С другой стороны — против лома нет приёма :)

roh_roh Aug 10 2009 at 19:27

как показывает мой личный опыт, скрытое через css поле «company» заполняют порядка 95% ботов. 90% из них пишут в него «google» (за что гуглу большое спасибо). до того, как я вставил это поле, мои хитрые алгоритмы отсеивали около 70% ботов. теперь ровно 100%.

naz Aug 10 2009 at 20:45

Даный метод называется Honey Pots, сам им пользуюсь, спратать даные поля можно и с помощью javascript.

kocten Aug 11 2009 at 13:19

+1 но для полной гарантии имеет смысл добавить ещё пару популярных полей, вроде «name», «surname», «age»…
и включить проверку ПО ВРЕМЕНИ:
боты любят запоминать состояние hidden'ов чтобы форма точно дошла до получателя, если мы передадим в hidden текущую дату и время, а потом при отправки письма сравнивать это значение с текущим временем. Ведь только бот сможет отправить форму меньше чем за 3 секунды и только бот сможет «отправлять» форму более 12 часов =)

lumian Aug 11 2009 at 13:44

и только человек может в той же опере нажать Ctrl+Enter и написать «Пацталом!» или «зачОт!» в течении пары секунд…

fog Aug 11 2009 at 02:36

Потому что нет таких умных ботов, чтобы CSS парсили.

zorba_buddha Aug 11 2009 at 07:18

всего лишь дело времени.

UFO landed and left these words here

qwertysx Aug 10 2009 at 19:08

>>P. P. S. Оказывается у меня тут в черновиках статья лежит про методы защиты от ботов и их обходы, стоит дописать?

Ну если уже на то пошло, так пишите.

vpbar Aug 10 2009 at 19:34

самая надежная защита — это не пущать никого. Ну или ограничивать количество сообщений и т.п. по ip.
А если нельзя не пущать. То можно максимально усложнить труд спамо-программистов используя динамическое создание форм в DOM и сложное взаимодействие элементов DOM. В этом случае придется делать бота используя браузерный движок, что сложнее. А вот если для браузеров без яваскрипта писать отдельные формы с капчами, то это по-моему лишнее. Качпа она 3 копейки стоит за штуку.
Хотя любая защита — это хорошо. Если она заставит потратить пару дней на написание отдельного бота для этого сайта — это уже уберёт большую часть спама. А если сайт не сильно посещаемый, то мало кто будет допиливать бота конкретно под ваш сайт.

roh_roh Aug 10 2009 at 19:57

ограничение количества сообщений не спасает от ботов, а только уменьшает количество сообщений от них

«придется делать бота используя браузерный движок» — не придется, они давно есть

отдельный бот отдельно банится на раз, за редкими исключениями. только сначала еще надо такой сайт сделать, чтобы под него отдельного бота стали писать…

MadJeck Aug 10 2009 at 20:01

В самом начале промелькнула ссылка на seleniumhq.org/projects/remote-control/ еще аналоги есть?

roh_roh Aug 10 2009 at 20:07

я занимаюсь защитой от ботов, а не их написанием :)

то, что боты замечательно работают с javascript я уже давно выяснил на собственном опыте :(

MadJeck Aug 10 2009 at 20:17

Ну что бы написать хорошую защиту надо смотреть со стороны. Вот например вы использовали защиту на javascript, все красиво, работает, но к примеру я буду видеть что вот тут у вас функция дешифровки скрытого поля на XOR шифровании и мне ничего не стоит её реализовать вместо того что бы использовать полноценный парсер javascript. Тут надо учитывать что сложность защиты != ее стойкости.

roh_roh Aug 10 2009 at 20:28

защитой от ботов я занимаюсь вынужденно. т.е. вот, привалило всякой фигни, смотрим что бы с ней сделать. сначала спам в мыло, потом в формы. ну и так потиху избавился от всего этого. благо сайт не тот, под который кто-то стал бы персонально писать бота.

MadJeck Aug 10 2009 at 20:34

Ну это не так плохо как кажется, скорее всего работают комбайны типа хрумера, так что достаточно будет поля назвать по другому (не url а iddqd например).

ConstNW Aug 11 2009 at 10:02

тот же хрумер обучается.

roh_roh Aug 10 2009 at 20:10

хотя можно и для тестирования юзать, а не только для гадостей. гугл сходу подсказывает simile.mit.edu/wiki/Crowbar и wtr.rubyforge.org/

MadJeck Aug 10 2009 at 20:19

Да уж конечно не только для гадостей много для чего. Мне например просто автоматизировать действия удобно некоторые, например хочу оплату через PayPal автоматизировать.

bobermaniac Aug 10 2009 at 20:40

Бот с браузерным движком — не самая большая проблема, особенно в винде. IE замечательно подтается автоматизации через интерфейсы. Работать будет не сильно быстро, зато таких ботов может клепать пачками любой быдлокодер.

AlphaLight Aug 11 2009 at 05:02

Не сильно быстро? Быдлокодер? Ох как словами бросаетесь :))

bobermaniac Aug 11 2009 at 09:29

Я говорю то, что есть, ибо по долгу службы пришлось однажды заниматься автоматизацией IE, дабы не заниматься написанием собствненого парсера и JS-движка.

AlphaLight Aug 11 2009 at 10:10

Собственный JS движок это крутовато, конечно. Я занимаюсь подобными задачами постоянно, в рамках разработок клиентов, не все так прозрачно.

bobermaniac Aug 11 2009 at 19:10

Не сложнее, чем любая другая автоматизация.

AlphaLight Aug 12 2009 at 06:03

Вы о готовых решениях, или самописных? Нет, любая задача решаема, конечно, но портировать весь JS дорогого стоит.

bobermaniac Aug 18 2009 at 14:36

Я об автоматизации IE.

У него внутри все есть.

MadJeck Aug 18 2009 at 14:49

Да, но он очень медленный как мне показалось и довольно глючный, допускаю что плохо разобрался, но сходу заставить COM объект правильно работать у меня не получилось.

bobermaniac Aug 18 2009 at 14:57

Он не глючный, он спецефичный.

Он работает со скоростью браузера (то есть в разы медленнее парсера), но умеет все то же самое, что умеет браузер, и любая защита, настроенная на скрытые поля и прочие вещи, которые, теоретически, парсер не умеет, обходится им на раз.

MadJeck Aug 18 2009 at 18:40

Да я согласен, просто у меня не получилось обойти flash защиту с его помощью, хотя в самом IE все работало.

AlphaLight Aug 18 2009 at 15:05

Медленный? Честно скажу, пробовал Mozilla движок, раз в десять медленнее для анализа данных получалось (правда это было года два назад, все могло измениться). Правильная работа дело рук программиста:)

olegich Aug 10 2009 at 20:43

теперь все, у кого это не было реализовано, — реализуют.

zorba_buddha Aug 11 2009 at 07:19

и боты начнут и их парсить…

jandosul Aug 11 2009 at 02:30

С первого раза не понял, но дочитывая комменты весь прикол в том, чтоб вставлять xml entities.
Я не думаю, что роботы настолько наивны не понимать их.

Gibbzy Aug 11 2009 at 02:53

Но дело в том что если какой нибудь злостный хаккер захочет написать вам стопицот комментариев скажем, он это сделает, ибо POST запрос будет сформирован в соотвествии с вашим требованием, только сложно было бы понять в чём дело, но теперь думаю это уже известный метод.
А от штатных ботов, думаю защитит.

DnV Aug 11 2009 at 10:13

Автор думает, что открыл Америку? Это же самая старая и простая каптча. Хотя так скорее вы выполняете проверку не человек/компьютер, а браузер/парсер.

lumian Aug 12 2009 at 18:57

как по мне, самая нормальная каптча — это recaptcha ;) поставил — не одного бота, комментария и т.д. пользователи особо не жалуются на нее…

Ekkertan Aug 25 2009 at 20:09

Способ действительно хороший. Очевидный и простой. От штатных ботов защитит, да. Ну, а с более продвинутыми стоит, ИМХО, разбираться в индивидуальном порядке: универсальной защиты от всего все равно не бывает (а как хотелось бы! :) )

x403 Jun 28 2013 at 05:57

Насколько я проверил в Firefox 20 и Chrome 26 под Ubuntu — обещанную конвертацию браузеры не делают.
На входе в форме имею:
<input id="search_char" name="search[char]" value="º" type="hidden">
При передаче контроллеру в логах получается:

Started POST "/ru/searches" for 127.0.0.1 at 2013-06-28 08:54:23 +0300
Processing by SearchesController#create as HTML
  Parameters: {"utf8"=>"✓", "search"=>{"query"=>"bla-bla-bla", "char"=>"&ordm;"}}

Потратил на внедрение этого псевдоспособа 40 минут, надеюсь, этот пост кому-то сэкономит время. Либо я узнаю в чем ошибся :)