anor Jun 19 2007 at 13:05

Защита от ботов, меньше цифер и буков

2 min

4.4K

Information Security *

+59

205

Comments 205

UFO just landed and posted this here

anor Jun 19 2007 at 14:00

Да, видал. Ниплохо:) И быстро главное.

Jenek Jun 19 2007 at 14:56

Да отлично придумано, вот только почему не сделать фотки побольше, чтобы можно было не смотреть на увеличенное изображение, стало бы еще быстрее (нифига не разберешь, если стоит 1600x1200, даже на 1280х1024, распознаются не очень надежно)

Для надежной защиты нужна большая база котят, собачат и крокодильчиков, иначе можно сделать бота который будет узнавать известные ему фотки.

Jenek Jun 19 2007 at 15:00

Прочитал до конца, все вопросы отпали.

И не так раздражает как капча, прикольные звереныши.

UFO just landed and posted this here

DIAprint Jun 22 2007 at 18:38

Одно животное робот может угадать

sphere Jun 19 2007 at 15:35

Ещё раз скину: http://pictcha.net/

lego1as Jun 19 2007 at 23:47

Вот что мне ответили: You're a bot!, хотя вроде правильно ответил

altmind Jun 20 2007 at 11:36

это только у меня в Opera и Firefox не работает? :(

pa3ot Jun 19 2007 at 13:39

здорово это использовать на развлекательных порталах с разношерстной аудиторией, где половина посетителей пишет "жераф" и "жыраф"

+10

UFO just landed and posted this here

drhyperkalich Jun 19 2007 at 13:41

Угу, типа маленький аватар с фоткой (именно фоткой!) животного, явно будет прекрасно работать.
Главное чтобы разработчикам не попала в руки энциклопедия экзотических животных :)

dorofej Jun 19 2007 at 14:57

общеизвестных животных, которые будут легко различимы на маленькой картинке не так много

drhyperkalich Jun 19 2007 at 15:02

десятка два мало будет думаешь?

korchasa Jun 19 2007 at 15:26

Ничтожно мало.

anor Jun 19 2007 at 15:30

Животных, насекомых, птиц. Много и не обязательно породы. Достаточно различать папугая и цаплю. А животного можно не целиком давать а кусок, к примеру тигра можно узнать и не видя его в полны рост, морды с шеей вполне хватит.

И почему только животные, есть еще деревья, кирпичи, фрукты и т.п.

anor Jun 19 2007 at 15:27

Ну по мимо двух десятков (а на самом деле больше), их ведь можно снимамть с разных ракурсов, брать разные породы и т.п.

drhyperkalich Jun 19 2007 at 15:30

вот вот
кстати кошки бывают белые, чёрные и рыжие :)

korchasa Jun 19 2007 at 16:07

Кстати сложные каптчи разгадывают сами пользователи, помогая спамерам. Технология элементарная: адалт сайт + транслятор каптчи :)

И разноцветные кошечки не спасут.

ИМХО, уже бессмысленно привязываться к распознаванию чего-то, пора привязываться к действиям.

ЗЫ: Я у себя в блоге писал об это. Кому интересно смотрите в профиль (здесь писать не буду, т.к. ссылка уже была, поэтому боюсь, что заминусуют)

dorofej Jun 19 2007 at 15:44

в этом и есть вся опасность
если вебмастер по незнанию гепарда обзовет ирбисом, а я буду точно знать что это гепард? или шимпанзе назовет обезьяной?

korchasa Jun 19 2007 at 16:03

Вопрос не в том сколько их, отношение времени пополнения словаря, к времени, которое тратит спамер на определение образа.
Если вы их собираетесь сами фотографировать, то вы уже проиграли, т.к. вам нужно потратить на каждую фотографию несколько минут, а спамеру секунды.

Можно было бы использовать flickr или гугловский поиск по картинкам, но они не релевантны.

dorofej Jun 19 2007 at 15:41

конечно мало
цифр и букв намного больше - однако они для ботов уже никакого значения не имеют
конечно, распознавание тигров и обезьян сложнее, чем цифр и букв, но это лишь дело времени

Leonid Jun 19 2007 at 20:52

http://www.hotcaptcha.com/ замечательная вещь :)

yehor Jun 19 2007 at 13:26

распознавать фигуры (для бота) даже проще, чем цифры, а вот на вопросы отвечать куда более интересно :)

sashabe Jun 19 2007 at 13:32

Если я не ошибаюсь, то, например, Rapidshare выдает ссылку на файл, даже если ты набираешь букву О вместо изображенного нуля. Идея с картинками очень интересна, но и традиционные методы буквенно-цифровой защиты, если их оптимизировать с учетом "поблажек" для наиболее частых ошибок пользователя, могут еще долго успешно работать.

baranov Jun 19 2007 at 14:10

Всё дело в том что буквенно-цифровые защиты легче распознаются ботами. Хотя дело, разумеется, в конкретной реализации.

c0r0ner Jun 19 2007 at 13:32

Имхо проще использовать что-то вроде http://ocr-research.org.ua/. Ребята конечно уже начали перегибать палку в последних версиях, да и шутка не бесплатная. Но добрый товарисч demiurg написал сампл

Сампл demiurg'a выкладывать не буду ввиду его нецензурности :)

drhyperkalich Jun 19 2007 at 13:38

там версии аж до 0.7... Последнюю вообще сложно воспринимается.
Идея хорошая, только большинство идей с целью улучшения доводятся до такой степени, что идеи становятся провальными.

UFO just landed and posted this here

drhyperkalich Jun 19 2007 at 13:46

ааа... 2.0 что то не увидел :)

gorinich Jun 19 2007 at 16:45

Такие картинки на раз распознаются :)
Проверял.
Наши питерские ребята и не такие картинки распознают ;)

c0r0ner Jun 19 2007 at 16:50

Все зависит от количества пиков, разнородности графа итд. В любом случае рельефные картинки сложнее распознавать ... Идеальной защиты нет :)

gorinich Jun 19 2007 at 16:58

На Хабре уже обсуждали какого-то украинского гения, написавшего http://passport.bigmir.net/registration/
Лично проверял, картинки распознаются на раз. Причем распознавалка не знала, что ей могут такое подсунуть, а просто взяла и распознала :)

c0r0ner Jun 19 2007 at 17:02

Потому что тупой copy-paste кода никогда не ведет к хорошим результатам :)

gorinich Jun 19 2007 at 17:07

Это вы о чем?

kiev Jul 16 2007 at 02:08

// Идеальной защиты нет :)
рекомендую прочитать статью
ясно ведь изложена концепция идеальной защиты от ботов! чего еще спорить?

terloger Jun 19 2007 at 13:34

Единственный минус в том, что против "индивидуального" распознавателя эти методы не пройдут. Т.е. например если будет задача подбора картинки с надкушенными яблоками, то вполне можно применять фиксированный набор контуров для распознавания. И т.д.

jiexaspb Jun 19 2007 at 13:40

А если яблоки сделать разной ширины? Или к примеру яблоки с листьями?

terloger Jun 19 2007 at 14:06

это разве проблема для индивидуального распознавателя? Можно и предусмотреть изменяемую ширину и "обрезание" листьев ;)

anor Jun 19 2007 at 14:01

Ну от индивидуального вообще проблемно избавиться, все время будет идти война с программером бота.

drhyperkalich Jun 19 2007 at 13:35

Коли используются латинские буквы в сочетании с цифрами, то просто надо использовать однозначно читающиеся символы, и всё.
А то я, вроде и не робот (роботы же непишут такие заумные комменты, прим. автора коммента), а иногда только раз на 3-4 правильно прохожу проверку :)

GreenAngel Jun 19 2007 at 13:44

Это не совсем правильное решение.
Наверняка есть люди которые не знают всех распространённых языков, но хотят например скачать что-нибудь с немецкого трекера. При обычной ситуации зарегистрироваться не сложно, но вот когда видишь яблоки-кружочки...

Я бы предложил в это поле вставлять арифметический пример 45/5=
Ответ на этот пример и вписывать в нужное поле.

-1

insa Jun 19 2007 at 13:52

вы хотите озадачить компьютер операцией деления? ,-)

anor Jun 19 2007 at 13:57

Создать каталог с тИЦ 5000 и там сделать проверку на добавление - факториал от 99999999999999999999999, что бы у спамеров серваки сгорели:)

darksab0r Jun 19 2007 at 17:04

Honeypot :)

-1

GreenAngel Jun 19 2007 at 14:03

Признаюсь я не могу правильно расценить ваш ответ в виду того, что я далёк от практической части вопроса...
Может быть вы уточните? Неужели это не возможно?

anor Jun 19 2007 at 14:17

Наоброт, это много где реализовано. Но как вы думаете если бот распознает цифры 45 и 5, а также значек деления между ними, разве для него будет проблемно произвести операцию деления 45 на 5?

UFO just landed and posted this here

anor Jun 19 2007 at 14:24

Ага, и количество регистрация быстро сойдет на нет:)

UFO just landed and posted this here

anor Jun 19 2007 at 14:22

Ну, а представь задачу для спамера - 10 000 ресурсов и для всех распознавание по маскам сделать? Можно ведь не только фрукты пихать, у кого фрукты, а у кого самолеты и ящерицы.
Это тебе не циферки распознать при помощи стандартных мат. методов.

UFO just landed and posted this here

anor Jun 19 2007 at 15:31

А форумные боты по твоему чем занимаются? А боты спамящие в каталогах, гостевых, комментах?

UFO just landed and posted this here

gorinich Jun 19 2007 at 16:51

Вон, gmail.com работает спокойно с незатейливой капчей и вроде никто еще не научился такое распознавать )

Одно могу Вам громко сказать в лицо! БУГОГА!!!

UFO just landed and posted this here

gorinich Jun 19 2007 at 17:00

Я про ботов :)
95 из 100 распознается :)

UFO just landed and posted this here

gorinich Jun 19 2007 at 18:02

И как его привести?
В общем в асе смотрите.
Можете посчитать. Там 91% ;)

sokolster Jun 20 2007 at 21:52

у gmail.com свои жёсткие методы борьбы со спаммерами -) тем более если пытаються отослать спам с их сервера.
каптча там играет очень мизерную роль

spleaner Jun 19 2007 at 14:09

Сам как разработчик сталкивался с такой проблемой.
В итоге пришел к мысли что если захотят сделать бота именно под тебя - то сделают без проблем..
Пусть даже надо будет из 3 картинок выбрать котенка или яблоко. Ну будет бот всегда выбирать первую картинку. в итоге 1/3 всех попыток пройдет..

В конце-концов сделал простую защиту, которая для бота, конечно, не сложная, но и регистрирующимся проблем не создает..

UFO just landed and posted this here

gorinich Jun 19 2007 at 16:54

И Вам БУГОГА!!! :)
Империя спамеров наносит ответный удар :)
Я имею достаточно большой опыт разработки подобных ботов. Не подстроитесь :)

UFO just landed and posted this here

gorinich Jun 19 2007 at 17:12

Вот только будете ли Вы этим заниматься?
К тому же фильтр - тоже алгоритм => его тоже надурить можно :)

UFO just landed and posted this here

korchasa Jun 19 2007 at 17:08

Большинство ботов определяются по "мгновенности" действий. Иначе они свой смысл теряют.

И DoS им в ответ :)

xOr Jun 19 2007 at 17:19

Написать программу, которая умеет "подделывать" кукисы к сожалению очень просто. Например к PHP можно установить библиотеку CURL, в ней исчерпывающий функционал по работе с http-запросами.

UFO just landed and posted this here

anor Jun 19 2007 at 14:28

А откуда бот знает что там спрашивают, для начала надо распознать. К тому же можно сформулировать так что будет понятно человеку, но возникнут сложности у бота.
Неправда ли - земля вращается вокруг солнца?
Или
"Сколько чисел в серии паспорта?"

UFO just landed and posted this here

spleaner Jun 19 2007 at 15:28

да речь идет об индивидуальном подходе..
если у тебя будет из 5 вопросов хоть 1 вопрос в стиле "да/нет", то бот будет постить тупо "да".. шанс что выпадет вопрос "да/нет" - 20%.. что угадает ответ - 50%... итого 10% - хороший показатель спамеру..

Да и опять же.. Если захотят заспамить конкретный ресурс, то не пожалеют времени и обновят страницу хоть 100 раз, чтобы увидеть все возможные вопросы..

pyanist Jun 19 2007 at 14:12

Старо, но в тему. Мне кажется, что анализатор подобных выражений — весьма непростая штука :-)

-2

pyanist Jun 19 2007 at 14:21

Хых. Я ещё маленький, чтобы теги использовать. А пишут, что можно!

Ссылка к верхнему сообщению — http://photo.krasu.ru/albums/edhel/me/humor/autodefence.jpg

umnik Jun 19 2007 at 14:50

Арифметические выражения - переводятся сначала в польскую запись, потом считаются.
Текстовые выражения - сначала человек сидит, сутки набивает базу таких выражений и ответов, потом засчет базы уже спамится сайт.
Ничего особенного, на самом деле. =) Трехмерные картинки - это уже интереснее.

pyanist Jun 19 2007 at 17:06

И сложные математические конструкции вроде пределов, сумм и интегралов? С простой арифметикой ясно.

umnik Jun 19 2007 at 17:16

Если в КАПАТЧЕ нужно будет считать пределы - это будет кошмар просто! =)
Хотя на математическом сайте покатит, наверное.

c0r0ner Jun 19 2007 at 14:16

В любом случае всякая защита должна быть не намного дороже стоимости обхода данной защиты :) Взломать можно все, но стоимость данного решения может быть намного выше прибыли от обхода защиты.

baranov Jun 19 2007 at 14:26

Мне кажется, если выводить на картинке простые вопросы, например: "Введите три последних символа этой строки", "Напишите количество букв и в первом слове этого предложения", "Введите количество букв второго слова этого предложения", то такая защита будет довольно эффективна даже для индивидуального взлома. Так как количество таких вопросов, варианты ответов, вариации формулировок - огромны, создание базы ответов практически невозможно. И реализуется очень просто.
Существует только проблема для иноязычных пользователей.

anor Jun 19 2007 at 14:30

Ну в принципе, написание индивидуального бота возможно под такие формулировки, другое дело что можно предожеие сформулировать несколько иначе употребляя разные вопросы.

baranov Jun 19 2007 at 14:42

Именно это я и имел в виду, может быть выразился несколько непонятно :)

codeby Jun 19 2007 at 14:50

скоро боты смогут понимать картинки, которые не будет понимать человек :)
будет типа captcha 2.0 :)

ecne Jun 19 2007 at 16:43

будет типа web 4.0 — для роботов, и только для них.

korchasa Jun 19 2007 at 16:46

Уже есть, для поисковых роботов

fanex Jun 19 2007 at 23:42

Ага, подсовывать такую суперкапчу и если отгадал правильно - значит попался, робот! Баним айпи :)

UFO just landed and posted this here

umnik Jun 19 2007 at 15:01

Умеют. =)

drhyperkalich Jun 19 2007 at 15:07

и как они так "умеют"?

umnik Jun 19 2007 at 15:26

Тут два варианта.
Либо внутренний javascript по нажатию, с различением eventX и eventY, чтобы они лежали в определенных участках картинки.
Либо внешний POST или GET с передачей x и y, если поставить на этой картинке input type='image'. Вроде того, что сначала заполните поля, потом нажмите на огурец (или лошадку).
Для первого варианта сначала изучается javascript-код, затем ищется наилучший алгоритм: либо искать определенные цвета, либо варьировать x и y. Потом просто вызывается соответствующее нажатию кнопки событие.
Для второго - по отсылается POST или GET с варьированием X и Y.

drhyperkalich Jun 19 2007 at 15:29

Спасибо :)

long Jun 19 2007 at 17:55

Но ведь картинку нада сначала найти. Выносим картинки в див (который в коде находится в произвольном месте и позиционируется через цсс) - как бот будет с такой задачей справляться?

UFO just landed and posted this here

long Jun 19 2007 at 18:12

хотелось бы подробностей. тема для меня актуальная (со сторны защиты). картинка ведь может иметь совершенно разные атрибуты, которые могут генерироваться случайно. парсить цсс боты умеют?

korchasa Jun 19 2007 at 18:48

CSS не все браузеры парсить умеют :)
Но найти ее можно всегда. Один из способов - менять место вывода картинки, и добавлять "ложные" (невидимые пользователю). Но опять же не панацея, т.к. набор ваших методов "прятания" ограничен, и легко описывается через RegExp.

long Jun 19 2007 at 19:03

вопрос - на сколько легко? ;) понятно, что если бота натравить на определенный ресурс - не спасет даже капча (об этом и выше и ниже говорится). Тогда есть ли какой-то смысл в ней? Может не стоит напрягать лишний раз пользователя?
Пока, оставив в форме обычную кнопку, которая прячется через цсс, и включив для нормальных пользователей картинку (в виде кнопки) у меня почти все боты пролетают как фанера.

Каким образом RegExp выдернет картинку со случайным именем? только по тому принципу, что она лежит в диве? Так таких картинок может быть много. Класс для стиля можно задавать тоже случайный. Мне кажется, что такой способ дает примерно такой же процент защиты, что и обычная капча. Только не заставляет пользователя человека напрягаться.

korchasa Jun 19 2007 at 19:16

Легко должно быть настолько, чтобы окупилось написание бота. Все как обычно упирается в бабло. Если ботов фильтровать по времени заполнения формы, по "виденью" невидимых полей, по неумению парсить CSS и выполнять JavaScript, то стоимость неотловленных ботов возрастает, а количество уменьшается. Но если ваш ресурс стоит того, чтобы потратить эти деньги, то боты все равно придут. Но на чистку их "испражнений" потребуется меньшее количество ресурсов, а это опять бабло.

А картинку можно выдернуть по многим критериям: по примерному размеру, по нестатическому урлу (mod_rewrite тут поможет), по размеру, методом исключения, и т.д.

На мелких ресурсах и загрузка каптчи через CSS прокатывает, т.к. "гадить" на них нужно быстро(толку от их ссылок большого нет). Но ведь всегда хочется достичь абсолюта.

long Jun 19 2007 at 19:31

Понятно, что достичь абсолютной защиты - не реально (тут вспоминается присказка о левой резьбе ;) ). Но можно к этому стремиться. И разумный компромис в варианте с графическими капчами (имхо) уже начинает нарушаться - человеку часто сложнее распознать текст, чем боту. Хочется как раз постараться достичь хорошего результата, но зайдя с другой стороны - пусть бот ломает "голову", а не человек.

korchasa Jun 19 2007 at 19:54

Полностью согласен. Особенно когда такая каптча стоит на постинге, а не на регистрации. За примером далеко отсюда ходить не надо: http://dirty.ru/login/

anor Jun 19 2007 at 21:14

Да, это ужос. Интересно сколько процентов пользователей в этот момент закрыли страницу...

anor Jun 19 2007 at 21:16

Я так и не понял что у меня за третья буква, "f", "t", "l" или "l" (L прописная, пред ней J строчная).

jite Jun 19 2007 at 19:22

А не "тормознет" ли тогда отображение страницы? Скажем, 30-50 пустых запросов по хоть и левым но картинкам, должно сказаться.

long Jun 19 2007 at 21:38

не очень понял вопрос. тормозит когда - когда бот по картинкам "щелкает"? этого никак не исбежать. или когда страница грузится? так картинки достаточно легкие (я пока экспериментировал ставя только одну реальную картинку-кнопку и одну кнопку-обманку для бота внутри формы).

umnik Jun 19 2007 at 15:00

Вариант с животными - это не вариант. Для спам ботов нужны тесты, которые удовлетворяют ряду условий:
1. По картинке человек хорошо поймет, что нужно ввести в поле
2. Робот не сможет понять, что нужно ввести в поле (из-за невозможности распознать изображение или ограниченности информационной базы)
3. Число вариантов должно быть порядка 10e5 хотя бы. Иначе спам-бот, просто перебором найдет нужный вариант.
Трехмерная запись - наиболее приемлемый вариант ИМХО, хотя тоже подбирается.

drhyperkalich Jun 19 2007 at 15:06

Кстати... а боты мышкой вообще умеют пользоваться? :)
+ флеш никто не отменял
А значит можно просить пользователя дорисовать простейший рисунок, ну например домик :)
Я имею ввиду просто одну линию в нужном месте.

anor Jun 19 2007 at 15:33

Флеш у многих выключен.

drhyperkalich Jun 19 2007 at 15:36

пускай не отстают от прогресса :)

UFO just landed and posted this here

anor Jun 19 2007 at 20:58

Ну это уже вопрос - нужны тебе посетители на ресурсе, или принципиально будешь стоять на том что бы все себе флеш поставили. У меня к примеру он вообще отключен просто, в Опере. Т.к. в рунете на флеше только реклама и мусорные элементы дизайна.

Maxmyd Jun 19 2007 at 15:07

Еще вариант, видел где-то. Предлагается вставить пропущенное слово: жили у бабуси два веселых
Ну или типа того. Можно использовать вопросы типа "Какого цвета красный забор?" и так далее. Но рисованные варианты с кружочками и крокодилами выглядят прикольнее. Кстати, вопрос "Сколько тут кружочков?" можно написать прямо на картинке. Будет еще круче.

Mofas Jun 19 2007 at 15:57

Как быть с посеитетелями из других стран, которые просто не знают этого языка?
Дискриминация получается.

sgnppv Jun 19 2007 at 19:29

Если сайт русскоязычный - то класть на иностранцев, логично?

Archon Jun 20 2007 at 13:12

"Жили у бабуси два весёлых кого-то" - распознаётся любым ботом, который заточен под ваш сайт. Просто гуглим фразу, и ответ у нас в мешке :)

"Сколько тут кружочков" - тоже. Распознаём фразу, из базы выбираем, что это такое (всё равно у вас бесконечного количества легко распознаваемых человеком фигур не будет), считаем кружочки на картинке, вуаля!

Какого цвета красный забор... Кхм... Ну для русскоязычного ресурса ещё подойдёт... А англоязычные вопросы на сообразительность можно сломать подставлением в бота, заточенного под распознавание фраз...
Например (только что ввёл и получил реальный пример с бота A.L.I.C.E.):
Human: what color is the red fence?
ALICE: Red.

Maxmyd Jun 20 2007 at 13:32

Ну, речь в данном (моем) случае идет о русскоязычном ресурсе. Посему, обучение гипотетического русского бота склонениям и спряжениям выльется в такую копеечку, что ботам будет проще просто игнорировать этот ресурс.
Что же касается набора вопросов, то, во-первых, их можно пополнять/изменять, а, во-вторых, выдергивать угадываемые слова из предложения можно случайным образом. Сегодня первое, завтра десятое, и т.д. К тому же, эти предложения можно писать на картинке, а не только простым текстом. И чередовать, опять же :) В результате написание бота, заточенного под мой сайт, обойдется еще в рупь с копейками. Большими копейками.
Лично я считаю подобную систему (с предложениями и выдернутыми словами) самой удачной.

Maxmyd Jun 19 2007 at 15:13

На вопрос из приведенного примера "Земля вращается вокруг Солнца?" не все дадут ответ :) Из недавнего опроса ВЦИОМ выяснилось, что 28% процентов россиян, считают, что Солнце вращается вокруг Земли. Было опрошено 1500 человек, достаточно репрезентативная выборка. Подробности тут, но чего-то там у них сбоит, так что ссылка может не открыться.
Так что надо задавать совсем уже тупые вопросы, если до этого дело дойдет.

drhyperkalich Jun 19 2007 at 15:34

всётаки надо учитывать что в интернете дураков поменьше чем на улице :)

Biollante Jun 19 2007 at 18:12

Вам показалось. Их тут больше и они заметнее.

gribozavr Jun 19 2007 at 19:25

А почему у них на странице написано наоборот? "Солнце вращается вокруг Земли": да 67%.

Или они сами ошиблись при наборе, или...

Maxmyd Jun 20 2007 at 13:33

Не совсем так, ты невнимательно прочел. "+" означает правильный ответ, а не "да"

vitaminych Jun 19 2007 at 15:18

Не все истины являются элементарными для россиян ;) Например, помните весенний опрос, по которому выяснилось, что каждый четвертый россиянин считает, что Солнце крутится вокруг Земли.

Tone Jun 19 2007 at 17:39

ну это смотря как смотреть... всё в этом мире относительно :)

sgnppv Jun 19 2007 at 19:33

Таких думаю лучше не стоит пускать куда либо :)

Zada Jun 19 2007 at 15:24

А можно же делать капчу из анимированных гифов, запутать там будет побольше возможности.
Ну а на флеше так вообще, такую капчу сделать можно, что и не снилось.

umnik Jun 19 2007 at 15:28

Классная идея, кстати =)

UFO just landed and posted this here

Helg Jun 19 2007 at 19:43

Ну и за что gimlis минус поставили, умники?

UFO just landed and posted this here

jite Jun 19 2007 at 15:29

Способ без картинок: Инородное слово

(Тему защиты от ботов не мониторил, если боян - сильно не бейте. Способ только что сам придумал, честно.)

Исходные материалы:
Текстовая база (по сути текстовый файл). Хоть "Война и мир" Толстого, хоть база рекламных объявлений. Главное условие - вполне связная логика контента, желательно без игры слов.
Пример:
"Пользователь Василий приглашает вас присоединиться к своему 1-му кругу друзей на Хабрахабре. Ниже текст запроса, который оставил"

Алгоритм:
1) Взять случайный блок текста 1-2-3 предложения из одного места базы.
2) Взять еще одно случайное слово (далее "инородное") из другого места базы. Вероятно, слова короче 4 букв здесь не подойдут.
3) Внедрить инородное слово в блок в случайном месте.
4) Вывести текстовый блок с внедренным словом. Запрос к пользователю: если вы не бот, выделите здесь лишнее слово и скопируйте вон в то поле ввода.

Идея метода: найти логику в литературном предложении это вам не проверка орфографии - тут человек нужен. А уж человек-то это сделает легко. Сами попробуйте.

Пример: "Пользователь Василий приглашает вас присоединиться к своему нужен 1-му кругу друзей на Хабрахабре. Ниже текст запроса, который оставил"

Недостатки:
1) могут быть и "удачные" совпадения (но это надо на практике посмотреть, что там искоренять, в конце концов можно 2 текста предложить пользователю для страховки и будет 2 варианта правильного ответа)
2) пользователь вообще-то должен знать язык: например, сам хоть и могу понять по английски, такой фокус на engilsh могу и не решить :)

Побочный полезный эффект:
1) Раз пользователь будет _должен_ хоть чуть-чуть вникнуть в смысл случайного текста, то почему бы этим текстом не быть контекстной рекламе, которую мы усиленно впариваем всевозможными баннерами?
Вообще-то, есть что-то "иезуитское" в этом... :(

Вероятные добавки-доработки:
а) Базу менять раз в ... (это не сложно)
б) Случайное слово куда попало не совать: например не совать рядом со словами меньше n букв.
в) Более того, можно совать инородное по каким-нибудь правилам, например рядом с глаголом д.б. существительное.

г) чтобы "самые умные" ботостроители для своих гнусных целей тупо не приделывали движки проверки орфографии, давайте развлекем их:
- поменяем в тексте все возможные русские буквы на латинские аналоги,
- выбросим знаки препинания и UPPERCASE(весь текст)
- займемся аналогом олбанского е --> э, я --> "йа", а после этого а --> я
И логика останется и пользователей развлечём. :) В этом случае надобно предупредить пользователей, чтобы при вводе слова пользовали только copy-paste.

PS Для чего это я все тут сочиняю? Мне те самые "картинки" ненравяццо, потому что иногда не грузяццо (бывают особые случаи, но речь не об этом). И вообще "сериалы" вводить - противно.

Splean Jun 19 2007 at 15:36

Элементарный spell cheсk рушит всю защиту, т.к. предложение становится несогласованным :)

umnik Jun 19 2007 at 15:39

Spell Check для албанского языка - это непросто =)

drhyperkalich Jun 19 2007 at 15:44

албанский албанским, но не для серьёзных проектов.

Splean Jun 19 2007 at 15:46

Во-первых, албанские включения не везде уместны :)
И почемуто мне кажется что данный способ менее всего надежен для проверки ;)

jite Jun 19 2007 at 15:44

Да вы что?! :) А если сделать предложение 100% несогласованным указанными способами. Хе-хе.

Splean Jun 19 2007 at 15:56

1. в 100% несогласованном предложении даже человеку будет трудно выявить логику :)
2. Ваш способ имеет место быть, но зачем все усложнять? :) Если текстом можно показать: "яблоко груша молоток", и все станет понятно, даже аннотацию писать не надо :)

anor Jun 19 2007 at 16:01

Такой тест ломается универсальным ботом, работающим со словарем даля.

Splean Jun 19 2007 at 16:06

ок :) Скрепка, гайка, бумага :)

anor Jun 19 2007 at 16:32

И что тут лишнее? Первовые две из металла, первая и последняя канцелярские:)

Splean Jun 19 2007 at 16:35

Согласен - не самый удачный пример :)

diamant Jun 19 2007 at 20:09

ага. и придут на ваш ресурс только брутфорсные боты, а пользователь выпадет в осадок с таких вопросов

jite Jun 19 2007 at 16:04

Да, вы правы. Не стоит противопоставлять методики, надо использовать их с умом в подходящих случаях.

Метод инородного слова не универсален.

anor Jun 19 2007 at 15:37

Интересная идея:) Но слишком сложно, особенно без знаков препинания и с албанскими включениями - нифига не найдешь:)

jite Jun 19 2007 at 15:43

В чем сложность? Васе Пупкину на домашний форум такой архисложный алгоритм не поднять? Пусть пользуется имеющимися - с картинками.

А вот тем, кто посерьезней, может будет впору.

Олбанский и знаки препинания - на выбор, по вкусу, из опыта.

anor Jun 19 2007 at 16:00

Я про то, что найти неподходящее слово в такой каше юзеру будет сложно, а не про реализацию:)

jite Jun 19 2007 at 16:13

Это - как подать. Не забываем, что содержание проверочного текста может проверку превратить в развлечение, а может наоборот, все убить.

А на первых порах это еще и возможность стать популярней - от упоминания уникальной прикольной фишки.

Нужен грамотный подход. Как подать...

umnik Jun 19 2007 at 15:38

Прикольная идея. =) Если займёшься и напишешь такое решение - тебе многие скажут спасибо! =)

jite Jun 19 2007 at 15:45

Я уже написал вообще-то. В смысле, вот текст - дерзайте!

UFO just landed and posted this here

jite Jun 19 2007 at 18:16

Мне не надо _писать_ предложений. :) Есть же произведения отечественной литературы, переведенные в электронный формат.
А еще блоги. :) Впрочем, блоги отпадают - не все умеют связно излагать. Нет, лучше классика.

diamant Jun 19 2007 at 20:10

lib.ru в открытом доступе, нужно лишь скачать и проиндексировать :)

UFO just landed and posted this here

diamant Jun 19 2007 at 23:40

я и имел ввиду хакеров :)
хакерам будет даже проще, если программист будет брать фразу из открытых источников, из книг, например, то бот может скормить полученную фразу гуглю, а лучше яндексу, он лучше ищет по русским текстам, и выявить несоответствие. но это сложный путь. проще - выкачать и проиндексировать lib.ru и другие подобные библиотеки.

korchasa Jun 19 2007 at 15:34

Да не спасут вопросы. Вы будете больше времени тратить на то, чтобы придумать вопрос, который устроит всех, чем хакер который будет добавлять еще пару записей.

Можно конечно и вопросы использовать: А пмоинте штуку о том, что пояродк бкув в слове не иемет занчеиня?

drhyperkalich Jun 19 2007 at 15:35

типа буквы рандомом внутри слова переставлять? и слова подлиньше?

korchasa Jun 19 2007 at 16:08

Это не понация, но искать такой текст тяжелее.

diamant Jun 20 2007 at 00:08

такие слова можно нормировать, хотя бы просто отсортировав буквы в слове, если лень сверяться со словарём. у людей проблем с пониманием будет опять же больше, чем у ботов, например, слово "штуку" я прочёл как "штуку", а не как "шутку", как это, возможно, предполагалось.

mrjj Jun 19 2007 at 15:36

Добавлю свои пять копеек, вот люблю я поползать по китайским варезникам (да, жесткая уголовщина но ничего не могу с собой поделать), и если китайцы начнут использовать captcha с "детскими вопросами" или где надо на китайском дописать известную китайскую пословицу, ну его на...
Я все это к чему, к тому что сейчас с каптчами сложился единый стандарт и это есть хорошо, вот честно, вам что, действительно не удавалось зарегистрироваться только потому что вы сто раз подряд не угадали набор цифробукв? Иногда я скачиваю с рапиды несколько десятков файлов в день, когда аккаунт не проплачен, я ни разу не ошибся. А вот с пословицами, поговорками и сформулированными текстом оригинальными задачами это действительно начнет случаться.
К вопросу о китайцах, да, машину можно без проблем обмануть, и вот пусть даже в этом топике придумали мегарешение со 100% защитой от ботов, если я вдруг начну к тому времени заниматься спамботами, то я достаточно просто смогу решить эту проблему, например так: есть сайт, который я хочу периодически бомбардировать, ну или создать там спокойно ждущую армию зарегистрированных аккаунтов, я без особых вложений создаю, ну допустим варезник с порносетами на рапиде, которые автоматически подтягиваются с какого ни будь тематического форума. Для регистрации на котором пользователь должен заполнить анкету... точно такую же как и сайте-жертве, с такой же каптчой, выцепленной оттуда (!!!), итого человек распознает каптчу при регистрации, совершенно не подозревая что она взята с другого сайта, а не генерируется этим, соответсвенно человек получает свои ненаглядные порносеты, а бот на его хвосте спокойненько регистрируется где надо. Вложения нулевые, все довольны.

Кажется я сделал интернету серьезную подставу :)

anor Jun 19 2007 at 15:42

жухло:)

-1

drhyperkalich Jun 19 2007 at 15:47

прям слов нет как всё наивно и просто :)

anor Jun 19 2007 at 15:59

Ну это все же конкретная война со спамером, я же в большинстве имел ввиду форумные спам боты и т. п. которые обрабатывают десятки-сотни ресурсов.

Kipren Jun 19 2007 at 16:08

Достаточно сделать сайт вроде рублик.ру, раздавать за правильную картинку 0,01 WMR заодно и BL поднимешь в webmoney. Даже можно для этой цели сделать типа автоматического сборщика денег, чтобы особо одаренные сидели целый день и распознавали картинки, например, с того же рублик.ру :) тогда денежка будет идти по схеме 0.02 WMR с рублик.ру на твой кошелек с твоего кошелька 0.01 WMR на кошелек сборщика

mrjj Jun 19 2007 at 16:14

Тут вот одно западло есть - что с твоего кошелька в результате что то куда то уплывает, а это неспортивно, вот наткнется на твой сайт артель китайцев вышедших из WoW и потом всю жизнь с долгами вебманями расплачиваться :)

Kipren Jun 19 2007 at 16:20

Ну, тут все намного проще :) автоматический сборщик будет говорить, что вы ошиблись в 4 случаях из 5, на сайте будет говорить в 3 случаях из 5. Иногда будет выдаваться количество принятых к обработке картинок и по достижению определенной суммы выскакивать ошибка обращения к БД, например. :)

korchasa Jun 19 2007 at 16:29

Не серьезно...автоматический сборщик должен анализировать ответ атакуемого сайта. Ну иногда врать можно ;)

Kipren Jun 19 2007 at 16:34

правильно анализировать он просто обязан, а врать в экономических целях может :)

diamant Jun 19 2007 at 20:14

давно реализовано :) вроде бы на hotmail.com, не помню точно, но на каком-то из очень популярных ресурсов так обошли защиту.

mrjj Jun 19 2007 at 23:10

Хе, не знал, можно линк на инфу если вдруг найдется?

diamant Jun 19 2007 at 23:33

у меня нет, я давно об этом читал, если только у гугла спросить.
выше в комментах об этом говорили: http://www.habrahabr.ru/blog/i_am_clever…
может там знают?

Antitanic Jun 19 2007 at 15:53

Введите номер кредитной карты:
А теперь пин-код:
Спасибо! Ваша регистрация прошла успешно!

Laughboy Jun 19 2007 at 15:53

полностью согласен с вышеизложенным.
ладно ещё наши русские сайты, тут более-менее сносные картинки выдаются, да различные шары, там тож ничего, а вот забугорные почтовые службы или форумы - это вапще убийство. Бывает минут по 10 вводишь буквы, пока наконец зарегистрируешься. =(

lynx2 Jun 19 2007 at 16:08

Я тут подумал, что ссылка на сайт про распознавание этих картинок будет здесь весьма к месту.

0xa8 Jun 19 2007 at 16:47

По теме об Image CAPTCHAs: http://www.cs.berkeley.edu/~tygar/papers…

Идея состоит в том, что компьютер можно легко научить распознавать образы, но трудно научить мыслить.

Так, если компьютер может легко опознать красное яблоко, жёлтый банан, бурый кусок хлеба, кусок мяса, серебристая рыба и зелёную тарелку, а задача выбрать лишний предмет, и лишней подразумевается тарелка, потому что оне несъедобна, то это уже трудно.

Для разгадки таких капчей нужно не только научить программу связывать образы с понятиями, но и связывать с каждым понятием кучу предикатов. Ведь одно и то же изображение может выступать в разной роли. Красное яблоко вполне может оказаться лишним в ряду нерастительных продуктов.

Другой пример, тоже на выбор лишнего: автобус на дороге, бегущий гепард, идущий человек, рыбка в аквариуме... и так изображений 10-15. Что лишнее? А здесь тонкость: все это движущиеся объекты, при этом на картинке движутся направо, и только один из них налево.

Чтобы эксплуатировать такую систему, надо к базе изображений, достаточно большой, добавить базу предикатов (указанных человеком). Естественно, базу предикатов следует держать в секрете.

0xa8 Jun 19 2007 at 16:48

Придумал русский перевод для CAPTCHA: «спотыкча» :)

mrjj Jun 19 2007 at 23:13

Я помню по инерции читал это "по-русски" - сар-тэ-эс-на и все недоумевал какой идиот такую жуткую аббревиатуру придумал :)=)

Suomi Jun 19 2007 at 17:12

А как на счет анимационного гифа?

korchasa Jun 19 2007 at 17:21

Никакой разницы, формат то открытый. Flesh в этом плане интереснее.

Sim Jun 19 2007 at 17:22

Использовать вопрос, закодированый в картинке нельзя, т.к. количество этих самых пар вопрос-ответ ограничено намного сильнее чем комбинации цифр или букв.

Распознавание элементарных графических объектов - задача на много более простая чем распознавание текста, так что не вижу и тут проблем для ботов.

Dr_Logic Jun 19 2007 at 17:40

А вообще только что тема капчи обсуждалась весьма подробны в блоге спам

Dr_Logic Jun 19 2007 at 17:42

Участвовал вы своем роде спец по капчам, по крайней мере человек, который работает с алгоритмами их распознавания, Алексей Колупаев.

m151 Jun 19 2007 at 18:21

п.1. Элементарные истины.

Не всё так радужно как кажется :-)

m151 Jun 19 2007 at 18:39

Блин, хтмл не сработал http://rutube.ru/tracks/17358.html?v=28a241ef8cb7ddf0cb175574cc8f2aa2

UFO just landed and posted this here

bendingunit22 Jun 19 2007 at 18:59

Все это хорошо, вот только индусов и китайцев, готовых практически за бесценок распознавать капчи, от этого меньше не станет.

beshenov Jun 19 2007 at 19:22

Это все хорошо, но вы забываете про доступность контента. Пользователь может быть слабовидящим, а может и совсем не видеть. При этом он может использовать не только голосовой пользовательский агент, но и терминал Брайля, так что предлагать слушать аудиотесты — тоже не выход. Речь идет о веб-сервисах, а их пользователи могут быть самыми разными, в том числе и в плане физических особенностей.

korchasa Jun 19 2007 at 19:39

Какой процент сайтов сейчас удобен этим людям?

beshenov Jun 19 2007 at 21:45

http://www.habrahabr.ru/blog/i_am_clever/17691.html#comment224421

(Я новичок на «Хабре», не туда написал)

Kastrulya0001 Jun 19 2007 at 20:55

Интересно, если человек не видит, то как и что он делает в Инете?
До сих пор думал, что аудиотест, это для тех, у кого не отображаются картинки.

Pilat Jun 19 2007 at 19:50

Если не рассчитывать на совершенно тупых посетителей, можно каптчу реализовать так - предложить распознать текст. Например, ту же Войну и мир, одну строчку вывести на картинку с искажениями и попросить набрать этот текст. Если искажения подобрать такие, что Fine Reader не справляется - значит и спамер не справится. Например, использовать семейства рукописных шрифтов.

bubuq Jun 19 2007 at 20:47

Новое определение «не абсолютно тупых»: те, которые помнят Войну и мир наизусть? :)

UFO just landed and posted this here

Siddthartha Jun 19 2007 at 20:05

Вариант "да/нет" не подходит никуда ибо спамерам вполне достаточно 50-ти процентного попадания.

bubuq Jun 19 2007 at 20:46

Предложите алогритм спамбота, распознающего эти вопросы:

Горюячие слнцы топльиво ль?
Горячэе слнце звзда, дда?

Предположим, что слова искажаются случайно.

Kastrulya0001 Jun 19 2007 at 20:51

Тут легко угадать, 50%. Считай что бот даже не заметит такой защиты.
ЗЫ первый вопрос кстати не очень понятен. :)

Kastrulya0001 Jun 19 2007 at 20:49

Последнее время эти буковки с циферками стал раза с пятого правильно вводить. Уж слишком заковыристо стало. Хотя на зрение и криворукость не жалуюсь. Иногда по инерции не сразу замечаю что на картинке не цифровой код, а уравнение. Если так и дальше дело пойдет, то без IQ и высшего образования ни на один сайт не войдешь.

mrjj Jun 19 2007 at 23:22

Ну может оно и к лучшему :)

beshenov Jun 19 2007 at 21:28

Процент доступных сайтов крайне мал, почти никакой, хотя соответствующее программное и аппаратное обеспечение уже есть. Нынешнее количество доступных сайтов — не повод забывать о том, что люди с ограниченными возможностями все-таки есть, как по очевидным гуманистическим соображениям, так и по чисто экономическим (если сервис платный).

По поводу доли слабовидящих пользователей среди клиентов некоторого сервиса говорить сложно, но вот здесь кто-то предлагал, к примеру, логические тесты («исключите лишнюю картинку»). По-моему, это просто очевидно, что многие люди, которые способны отдыхать и делать покупки в сети, не всякий тест смогут пройти. Откажетесь от таких клиентов?

Знаете, это похоже на защиту от спама, когда адреса электронной почты публикуют в искаженном виде или в виде изображений. Да, это по крайней мере заставит спамеров потрудиться побольше, но пострадают обычные клиенты.

Если сервис нужно защищать от нежелательных сообщений рекламного характера, нужно использовать фильтры, а также отсматривать сообщения (все, либо те, на которые поступают жалобы). Для простого пользователя все должно быть без последствий. Почтовый спам лучше терпеть, чем по-колхозному бороться с ним, привлекая пользователей.

bird2gt Jun 20 2007 at 12:15

в заголовоке:
цифр и букв
:-)
или это такая защита от ботов?
:-)

ihoru Jun 20 2007 at 12:20

это просто такой прикол :)
автор, супер :)

Goofee Jun 20 2007 at 16:30

http://monitor.net.ru/forum/profile.php?mode=register
-.-

runawayed Aug 8 2007 at 20:34

это к чему?/

sergey_privacy Mar 31 2008 at 23:10

Народ ленивый или просто не хватает квалификации|фантазии для реализации следующих вариантов:
1. Анимационный гиф. Достаточно одну картинку из 5 сделать отличной от цифры, которую надо распознать и ни одна программа не справится. Хотя с анимационным гифом и так вряд ли что выйдет.
2. Выводить уравнение на уровне 1-го класса, типа "2+3" или "5-2". Распознать такое не сложно, придется прикручивать к боту еще арифметические операции.
3. На одном сайте видел буквы-цифры, представленный ASCII-графикой. реализация очень проста, а ботам будет тяжело. Особенно если разбавить разными непечатаемыми символами.
4. Флэш никто не отменял
5. Вместо цифр можно использовать буквенное представление типа "три плюс два"
6. Любая программа распознавания образов изучает массив точек одного цвета и пытается из них составить буквы. Если весь фон и буквы делать с разницей в несколько единиц шестнадцатиричного представления цвета, то человеческому глазу изменения будут малозаметны, а вот для ботов это непреодолимая преграда. Например фон у нас белый, в шестнадцатиричном виде это выглядит как #ffffff. Если цвет каждой точки сделать в диапазоне #ffffff-#f0f0f0, то фон будет грязно-белым, но для человеческого глаза вполне нормально. Так же и сами буквы. Если боты поумнеют, то можно будет фон делать неоднородным светлым (светло-розовый, светло-голубой, светло-желтый, светло-салатовый), а буквы делать из темных неоднородных точек (синий, зеленый, бордовый, коричневый и т.д.). Человеческий глаз будет видеть темные буквы на светлом фоне. А для ботов это будет просто каша разнородных точек.
7. Можно делать строку различных символов и описание типа: сложите каждый 3, 5 или 7-й символ строки и полученное значение введите.
8. Можно прокручивать просто кусочек видео с низким разрешением.
9. В описании DHTML есть такая штука, как графические фильтры. С их помощью можно делать картинки, видимые только после применения фильтра
10. Ява-скриптом можно делать что угодно! Хоть те же снежинки пусть бегают по экрану, а при наступлении какого-нибудь события пусть сбегаются вместе и образуют нужные символы.

coolspot May 18 2008 at 00:26

1. Анимационный гиф - обрабатывается в том же php, с такой же простотой, как и статичная картинка. Раскладывается на кадры, каждый распознаётся отдельно как простая картинка, но легче, т.к. на одном кадре ТОЧНО только одна буква (иначе пользователю не успеть понять).
2. Такое для ботов совсем не проблема, давно прикручено.
3. Очень просто: равняем один символ к одному пикселю, растеризуем (можно с поправками через заранее составленную таблицу символов, например точки не учитывать - так как мало заметны)
4. Флэш отменяют пользователи в своих браузерах, очень и очень часто.
5. Словарь цифр, словарь арифметических операций и нету капчи.
6. Ключевое поняте здесь - контрастность. Насчёт "буквы делать с разницей в несколько единиц шестнадцатиричного представления цвета" - задаём порог слияния цветов и вуаля - точки отличающиеся на значение меньше порогового считаем одного цвета. Про цветные фоны вообще бред - при распознавании изображения в конечном итоге приводятся в ч/б маски, в которых отсечён фон (а фоном в свою очередь считается преобладающий цвет или интенсивность серого в картинке).
7. Это сложо для пользователя. Для робота тоже не сахар.
8. См. №1
9. Но ведь картинка изначально содержит код, так? И путь к файлу-картинке содержится в HTML-коде страницы? Значит скачать и распознать.

sergey_privacy May 30 2008 at 12:20

3. Не очень просто, даже совсем не просто. Вариантов представления букв может быть куча. Точки, запятые и еще куча различных символов поспринимаются глазом как более светлые участки фона, другие выглядят более темными. Меняя сочетание светлого фона и темных букв, потом наоборот, мы сделаем задачу рампознавания практически нереальной. Я давно программирую и представляю, что можно получить на выходе. Но даже близко не представляю, как это распознавать.
4. Если флэш требуется для регистрации на сайте, то включить и потом отключить - дело пары минут.
А в целом остается обычное сравнение затрат и прибылей: трудоемкость реализации распознавания некоторых методов защиты окажется выше потенциальной прибыли. Некоторые вещи принципиально возможны, но их трудоемкость превышает разумные границы.

easterism Jul 8 2008 at 13:25

3. http://thephppro.com/products/captcha/ не думаю, что боту будет просто. (с каждым обновлением страницы новый вид капчи)

HeLLiK Nov 4 2008 at 21:02

Уже писал, но повторюсь.
Американские ученые из Университета Карнеги-Меллона разработали новую систему, которая должна существенно ускорить процесс оцифровки текста, неподдающегося автоматической обработке в программах оптического распознавания.

Исследователи подсчитали, что пользователи интернета ежедневно распознают порядка 60 миллионов так называемых изображений CAPTCHA (от английского Completely Automatic Public Turing Test to Tell Computers and Humans Apart — полностью автоматический тест Тьюринга для различения компьютеров и людей). Такие изображения применяются на веб-сайтах с целью защиты от программ-роботов, осуществляющих автоматическую регистрацию.

Сотрудники Университета Карнеги-Меллона приняли время распознавания одного изображения CAPTCHA за десять секунд и получили, что ежедневно пользователи Сети тратят порядка 150 тысяч человеко-часов на разгадывание зашумленных искусственным образом картинок. Эту энергию исследователи предлагают расходовать на распознавание отсканированного текста.

Новая технология получила название reCAPTCHA. Суть работы системы сводится к следующему. Пользователю предлагается распознать два слова, одно из которых службе reCAPTCHA известно, а второе — нет. Если пользователь правильно решает задачу с уже известным ответом, то система reCAPTCHA считает, что он правильно распознал и неизвестное слово. С целью повышения вероятности правильного распознавания одно и то же слово предлагается в качестве изображений CAPTCHA нескольким пользователям интернета.

Система reCAPTCHA может быть интегрирована в почтовые сервисы, форумы и так далее. Дополнительную информацию о системе можно найти на странице.a href=«recaptcha.net/captcha.html» >этой