alizar Jun 13 2007 at 14:14

Алексей Колупаев признался, что делает CAPTCHA-распознавалку для спамеров

1 min

2.2K

Spamming and anti-spamming

+40

199

Comments 199

Lola2grp Jun 13 2007 at 14:19

Упорный парень...
А действительно - почему бы не постучаться раз сто..? :)

zhuravl Jun 13 2007 at 18:04

Эта проблема легко решается. Тот, кто постучится более 5 раз подряд с неправильной капчей попадает в IP black list и больше не будет стучаться вообще.

AlexKolupaev Jun 13 2007 at 18:14

Абсолютно верно - бота, атакующего с помощью не слишком хорошей OCR можно эффективно вычислять с помощью статистических эвристик. Даже банальное слишком большое количество сабмитов формы с одного IP - очень характерный признак.

UFO landed and left these words here

AlexKolupaev Jun 13 2007 at 19:42

Да, но это повышает стоимость проекта. И приближает ее к бессмысленной.

UFO landed and left these words here

AlexKolupaev Jun 13 2007 at 20:04

И тем не менее, защита интерфейса капчей - это вопрос установления цены его взлома. Предельная цена - это, скажем, цент за картинку. Если написать OCR будет дороже - никто ее не будет трогать. (конечно сложно сравнивать программу, теоретически могущую работать бесконечно долго и тружеников, оплачиваемых сдельно, но тем не менее).

UFO landed and left these words here

AlexKolupaev Jun 13 2007 at 20:09

Точно.

cybermozg Jun 13 2007 at 20:11

Эхх... это кажется фантастикой. Хотя может быть когда-нибудь мир в мире наступит =)

kiev Jun 13 2007 at 21:20

долой колупатых спамеров и их подельников!
капчи бывают разные, достаточно задать простой логический вопрос, иск интеллект колупатым не под силу.

flint Jun 14 2007 at 12:01

Вы знаете, искажение фамилии — оскорбление.

Про простой логический вопрос — это вы смешно, конечно.

kiev Jun 14 2007 at 13:08

извиняюсь, просто достали эти спамеры которых весь мир проклинает.

UFO landed and left these words here

AlexKolupaev Jun 15 2007 at 20:19

Пока не ломают ИМЕННО ЕЕ - работает. Но не дольше.

mayhem Dec 3 2007 at 00:47

ради интереса порефрешил страничку, которая идет в статье как пример. там на форуме аж три вопроса. для нормальной защиты надо нормальная база. Может оно и ничего но системку тож при желании пройти можно. например имея в базе соответствие "дважды два" - "четыре" можно легко пройти любые вопросы типа "сколько будет дважды два". А если задавать слишком умные вопросы типа "в чем суть марксистского диалектизма в трудах Ленина раннего периода" то регистрация на форуме превратится в игру "О, Счасливчик".

olegich Jun 14 2007 at 07:07

Компьютерные мощности постоянно дешевеют, так что вопрос стоимости - это лишь вопрос времени.
Бороться в лоб смысла нет - большие потери для обоих сторон. Надо делать так что б смысла спамить не было.

DEL Jun 14 2007 at 10:23

На счет IP black list прокси еще никто не отменял)

bird2gt Jun 14 2007 at 12:00

brute force attack: если в сердце дверь закрыта - надо в печень постучать :-)

не знаю их эту систему я видел или нет - но есть обучаемые системы распознования.
им несколько раз надо "помочь" и дальше работает с все увеличивающимся процентом попадания.
Вспомнил: для рапидшары такая программка была

TheBits Jun 13 2007 at 14:34

Мне показалось что свой логотип они распознали на сайте Oracle…

UFO landed and left these words here

AlexKolupaev Jun 13 2007 at 18:01

Да, дизайнеру передам привет :)

Apostol Jun 13 2007 at 21:29

А владельцам сайтов, капчи которых были распознаны, кому привет передавать? ;)

AlexKolupaev Jun 13 2007 at 21:35

Сложный вопрос. Ваши предложения?

Apostol Jun 13 2007 at 21:47

Я к тому, что они тоже не будут рады, когда ихний сайт "закажут" у вас спамеры. Такая работа должна проводиться в образовательных целях, но не для коммерческих взломов.

AlexKolupaev Jun 13 2007 at 21:52

С радостью наймусь туда, где мне будут платить за образовательную работу.

Я ж говорю - я предлагал эту тему на конференции - программистам она неинтересна.

gorinich Jun 14 2007 at 09:09

ocr.prj.zaebiz.com - Ваше творение?

AlexKolupaev Jun 14 2007 at 10:04

Нет, в первый раз вижу.

gorinich Jun 14 2007 at 11:16

Картинки с bigmir)net распознает, только что попробовал ;)
Пока я не видел картинок, которые он не распознавал. Конечно ошибается, но процент ошибок достаточно мал.

AlexKolupaev Jun 14 2007 at 11:57

Интересно, надо посмотреть.

Mofas Jun 13 2007 at 14:38

Вот они, люди, которые развивают спам во всех его проявлениях.

AlexKolupaev Jun 13 2007 at 17:38

Не спам, а системы защиты от спама. Разница небольшая, но существенная.

diamant Jun 13 2007 at 17:41

защиту от защиты. или систему взлома защиты от спама.

AlexKolupaev Jun 13 2007 at 17:52

Настолько ли это разные вещи?
Что за капчу может написать программист, ничего не знающий о том, как их взламывают, и, соответственно, как этому противодействовать?

Markovnin Jun 13 2007 at 15:04

вроде где-то на хабре писали про альтернативы CAPTCHA...

Severus Jun 13 2007 at 15:34

Да, анимированная CAPTCHA

bask Jun 13 2007 at 17:00

анимированная капча - всего-навсего набор статичных картинок, которые можно либо распознать по отдельности, либо объединить вместе и распознать результирующее изображение

AlexKolupaev Jun 13 2007 at 18:09

Верно. Анимация может привнести дополнительные сложности, но не привносит концептуально новых преград. Можно отрисовывать на флеше. Есть вот варианты с псевдографикой. Это существенно не меняет суть проблемы.

AlexeyMas Jun 18 2007 at 12:11

А как оцениваете в Вебмани защиту?
Там именно анимацией :)
В принципе апроксимировать это нельзя вроде бы. Хотя если сделать нарезку кадров и разложить то можно. Но если сделать вращение - было бы забавно.

AlexKolupaev Jun 18 2007 at 12:40

Насколько я помню защиту в вебманях - там три циферки отдельно стоящие и просто шрифт-размер у каждой из них скачет? Это по сути даже легче, есть втрое больше информации чем нужно. Если что-то не так будет с одной буквой - можно распознать другую. Хотя что может быть не так с обычными шрифтами примерно одного размера... Так что изюминки не увидел.

entze Jun 13 2007 at 15:25

Ну вот .. взяли и полили пацанов грязью :) А ведь

Our work is devided in two:
1. Breaking known CAPTCHAs to prove it's weakness,
2. Creating new safe CAPTCHA.

http://ocr-research.org.ua/teabag.html

Так что давайте теперь производителей "болгарок" будем винить в кражах :)

AHTOH Jun 13 2007 at 21:39

Ложное сравнение.
Тут уместнее было "давайте теперь производителей взрывчатки будем винить во взрывах".

Все же они производят продукт специально для ВЛОМА. И их отмазки сродни надписи "Это не СПАМ" в начале письма со спамом.

AlexKolupaev Jun 13 2007 at 22:07

А также продукт специально против взлома.

AHTOH Jun 13 2007 at 22:50

О да! Сами пишем вирусы, сами пишем антивирусы для них :)

AlexKolupaev Jun 14 2007 at 04:17

Почему - для них?

AHTOH Jun 14 2007 at 09:39

Ну, для них, потому что разрабатываются алгоритмы для сложных случаев и разрабатываются сложные случаи, к которым не подходят эти алгоритмы.

AlexKolupaev Jun 14 2007 at 10:05

а, ну да. Типа того.

Dr_Logic Jun 15 2007 at 21:12

чтобы продать новую САРТСНА надо сначал скомпроментировать старую - это бизнес.

Utkin Jun 13 2007 at 15:42

Его бы энергию, да в мирных целях.

paradonado Jun 13 2007 at 18:28

тут уже проблема в деньгах
в мирных целях неполучат они сколько денег с заказов
клише можно также сравнить с торговлей оружия

maserg Jun 13 2007 at 15:53

галимая у них распозновалка....

maserg Jun 13 2007 at 16:22

работает он теперь в бигмире, поэтому при регистрации у них используется вот такая вот фигуська

http://passport.bigmir.net/registration/

m4rr Jun 13 2007 at 17:59

афигенно! ваще продумано хорошо. видимо машине это распознать реально сложно.

AlexeyMas Jun 14 2007 at 00:25

там ей же сто лет :) подобной схеме

AlexeyMas Jun 14 2007 at 00:26

кстати такая штука ломается ничуть не хуже других
даже лучше

xiao Jun 14 2007 at 02:29

такую картинку легко повернуть в прямоугольное состояние и она станет очень похожа на обычные

UFO landed and left these words here

Raesvelg Jun 13 2007 at 19:09

В этом алгоритме мне не нравятся две вещи:
- Сетка, в которой "выдавлены" буквы, слишком предсказуема - если ее просчитать и выделить все части, где просчитанное изображение не соответствует имеющемуся - можно получить вполне узнаваемые буквы.
- Если применить к изображению размытие, контуры букв выделяются с одной стороны более светлой частью (подъемом), а с другой - более темной (резким обрывом, сливающимся из-за угла зрения с сеткой за ним). Если убрать однородный шум, получившийся размытием из основной сетки, опять же получаются контуры букв.

Сразу говорю, не специалист, однако эти две детали, как мне кажется, могут упростить взлом этой конкретной каптчи.

AlexKolupaev Jun 13 2007 at 19:44

Все верно, уязвимости есть. Мы работаем над следующей версией :)

UFO landed and left these words here

Raesvelg Jun 13 2007 at 15:54

Недавно узнал про веселенький сервис, делающий абсолютно все каптча-картинки бесполезными - сервер обмена каптчами. Действует это просто - вы "разгадываете" чужую каптчу, а другие пользователи, когда придет время, "разгадают" вашу. Для спамеров такой подход неинтересен - не те масштабы, но для различных сервисов вроде рапидшары он незаменим - использование ручного распознавания дает практически стопроцентный результат.

Spy Jun 13 2007 at 18:00

интересный сервис с социальной направленностью :)

AlexKolupaev Jun 13 2007 at 18:17

Кстати я читал о неких, скажем так, организациях, нанимающих людей в странах с дешевым рабочим временем, и эти люди сидят, и в три смены занимаются тем, что распознают капча-картинки. Цена распознания одной картинки в такой схеме - порядка одного-двух центов.

Spy Jun 13 2007 at 19:46

не позавидуешь этим "рабочим"

AlexKolupaev Jun 13 2007 at 19:47

Да как сказать. Работка непыльная.

Spy Jun 13 2007 at 19:52

день, два, неделю... потом тошнить начнет от такой работы. Рутина полная

школьникам, конечно, самое то :)

AlexKolupaev Jun 13 2007 at 19:57

То ли дело дворником вкалывать. Или, скажем, шахтером. Или, например, в макдональдсе. Понятно, что тяги никакой, но скольким людям приходится так работать? "Так тут они хотя бы в тепле!" (с) М.М.Ж.
Видели фотографии - как живет обычные люди в Китае, Индии? На какое количество денег они питаются в неделю?
Тут уж - смотря на то как посмотреть.

kiev Jun 13 2007 at 21:26

мораль одна - поменьше беспризорных сайтов, делать премодерацию и нанимать больше китайцев для модерации интерактива, а то и живые люди столько гадят в интерактиве что никакие капчи не спасут

fanex Jun 19 2007 at 20:02

Лучше набрать китайцев, чтобы они рисовали капчи. Уникальные будут - без сомнений :)

sokolster Jun 13 2007 at 22:45

а что мешает написать распознавалку для капча определённого сервиса ?
сидишь смотришь а денежка капает =)

AlexKolupaev Jun 14 2007 at 08:56

Капча и мешает. В этом ее смысл.

AirWorker Jun 16 2007 at 06:01

Капчисты :D

yozh Jun 17 2007 at 09:18

о, ну что ты, есть ведь и бесплатные способы )) например, ты - турецкий молодой человек, и очень хочешь посмотреть воооон то видео с дядями и тётями - но тебя просят для этого всего лишь ввести капчу. ну разве ты не введёшь?) работает на 100%. а ведь иногда можно им показать две капчи подряд - сорри, первую вы ввели неправильно ,)

AlexKolupaev Jun 17 2007 at 09:58

ну это конечнго если у тебя как раз завалялось пара суперпосещаемых порносайтов и ты готов пожертвовать их юзабилити. То есть по итогу это стоит ничуть не дешевле.

hazard2 Jun 13 2007 at 19:51

Дык нормальные сервисы айпишники проверяют, и ставят ограничение по времени.

sokolster Jun 13 2007 at 22:48

незабыаем про сокс и анонимайзеры, много сервисов готово предоставить вам "много" разных айпи за небольшую плату

m0sia Jun 14 2007 at 13:37

например? просто интересно.

sokolster Jun 14 2007 at 16:05

sockschain

m0sia Jun 14 2007 at 19:29

дык это утилита. я спрашивал про сервисы, которые дают "много разных айпи за небольшую плату"

sokolster Jun 15 2007 at 22:57

не думаю что коректно будет где-нибуть оглашать такие сервисы -)
те которые я использую(в совершенно мирных целях) против левых клиентов(ну или подставных. тут такое дело)

p.s. кто ищет тот всегда найдёт

Vox Jun 13 2007 at 16:03

Автомическое распознование каптч очень удобно при скачивании файлов со всяких файлопомоек.

beeruser Jun 13 2007 at 16:26

>> We just want to prove weakness of some systems. And sell them our CAPTCHA.

"Зачем мне твой щит, если он не защитит от твоего меча? Зачем мне твой меч, если он
не пробьет твоего щита?" (с)

fanex Jun 19 2007 at 20:03

Точно, "Босой ученый"!

hedin Jun 13 2007 at 16:35

вот список нетрадиционных защит(NOT GAY)
Особенно понравилось идея про пазл. Все руки никак не доходят реализовать.

AlexKolupaev Jun 13 2007 at 16:55

Привет, хабралюди.
Статья переведена (и сильно, я смотрю, доработана) со статьи в New York Times. За время, прошедшее с момента взятия у меня интервью до появления вот этого вот перевода, как я вижу, содержание существенно изменилось.
Вставлю некоторые ремарки по переводу.

1. Украинский хакер - это, конечно, доставай зачотку.
2. Создал программу - это тоже бред. Даже в оригинальной статье, насколько я помню, такого нет. Речь идет не о "серебрянной пуле", никакой Программы нет. Есть отдельные программки, распознающие конкретные CAPTCHA картинки одного конкретного генератора.
3. Одна из киевских интернет-компаний, как тут справедливо заметили - это bigmir)net
4. Предприниматели организовали компанию - это тоже отличная фраза. Автор, откуда? Откуда компания? Какие предприниматели? Ты что? Мы просто сделали сайт, и на нем публикуем результаты наших изысков.
5. "Украинцы говорят, что могут настроить свою программу на решение любого типа CAPTCHA." - обожаю журналистику! Отродясь ничего подобного не говорил. Хотя, фраза скользкая. Вполне вероятно, имеются в виду какие-то другие абстрактные украинцы, которые всякое, как видно, говорят. Еще раз - нет никакой "программы", и уж конечно не для "любого типа CAPTCHA"

Ну и про "признался" - это конечно самый хот.

Мы не делаем различия в том, кто к нам обратился. Нам нравится этим заниматься, а если за это предлагают заплатить - почему бы и нет. Результаты - на сайте. Надеюсь они заставят авторов откровенно плохих капча-защит задуматься.

otaqsun Jun 13 2007 at 18:00

с фоткой хоть не наврали =) ?
ps а сколько предлагать заплатить? особенно за "...настроить свою программу на решение любого типа CAPTCHA.", очень любопытно... хотя я тоже занимался OCR в некотором роде, разрабатывал систему распознавания отпечатков пальцев(С#/asp .NET 2.0), эх помню было много забавных приключений.

AlexKolupaev Jun 13 2007 at 18:03

Нет, NYT специально своего фотокорра присылал. Сейчас прямо с этого самого места и пишу.
Предлагают по разному. Самое поразительное предложение было $75k за ticketmaster.com. Правда там были своеобразные условия, и мы отказались.

otaqsun Jun 14 2007 at 05:59

хорошенькая сумма. хотя наверно тикетмастер того стоит, тк барыги на билетах очень сильно поднимаются, я думаю окупилось бы буквально за один концерт мадонны.

AlexKolupaev Jun 14 2007 at 06:18

Чего не знаю - того не знаю. Мне интересно с картинками возиться

otaqsun Jun 14 2007 at 07:09

я тоже по чуть чуть, правда времени не хватает, а еще меня заинтересовала распознавание видео в реально м времени, тоже оч интересная штука, тем более после распознавания отпечатков пальцев, создать распознавания по лицу)) кароче к появлению Большого Ьрата все готово. Кста слышал американская или канадская фирма (название не помню) недавно выпустила совершенно новую, самую умную систему распознавания лиц работающую в реальном времени, причем относительно не требовательная к камерам (вернее ей подходит та сеть камер что сейчас покрывает США). Вот тестят вовсю, пока успешно. Вообщем как ты понял я по биометрическому распознаванию =).

AlexKolupaev Jun 14 2007 at 07:32

Да, классная тема. Есть над чем подумать.

cybrarian Jun 13 2007 at 20:03

ну, ализаров известен своим наплевательским отношением к английскому и к достоверности, я его тут уже 2 раза уличал

но пока он будет переводить - пипл будет это хавать, это ж блин "веб 2.0", "сотня леммингов не может быть неправой"

типа "IT-желтушник"

AlexKolupaev Jun 13 2007 at 20:06

Удивительное ощуение - давать интервью, а потом объяснять, что то, что опубликовали - никогда не говорил...

cybrarian Jun 13 2007 at 20:41

Самое поганое - что пока я ваш комментарий не прочитал, у меня такой негативный образ этого самого Алексей Колупаева создался - сидит какой-то безвестный хакер, защиту сайтов курочит за деньги бесстыдно, а за этого его еще NY Times интервьюирует.

cybrarian Jun 13 2007 at 20:50

посмотрел текст NY Times - если всё описанное там - правда, то ваша деятельность действительно неоднозначна

сам испытывал неоднозначные ощущения, когда обнаружил у клиента на сайте sql-инъекцию и исследовал её с тем, чтобы потом отослать им отчёт и рекомендации по закрытию дыр

m0sia Jun 14 2007 at 13:43

в нашем городке на десяток писем вебмастерам о sql инъекциях ни отклинулся и не ответил ни один. Что делать? Даже письма в ответ не прислали. И конечно ничегошеньки не пофиксили. Как с такими боротся?

m0sia Jun 14 2007 at 13:45

чтото ошибок много в комментарии наделал

pa3ot Jun 17 2007 at 15:00

sql-инъекциями с ними и бороться

AlexKolupaev Jun 13 2007 at 20:52

Вопрос этически действительно неоднозначен. Из ситуации можно сделать прямо противоположные суждения.

AlexeyMas Jun 14 2007 at 00:31

так так и есть :)
взлом капчи - фактически взлом сайта
взлом капчи за деньги - взлом сайта за деньги

а тот, кто заказал взлом, потом выльет грязь на ваш сайт

kappa Jun 13 2007 at 21:56

Алексей, как по-вашему, действительно ли сейчас можно уверенно сказать, что взлом CAPTCHA это на 90% сегментация картинки и только на 10% распознавание сегментов в символы?

AlexKolupaev Jun 13 2007 at 21:58

Да. Если удается эффективно разбить картинку на набор картинок с символами - это практически гарантия. Механизм нейронных сетей работает в этом плане отлично.

Spy Jun 13 2007 at 18:02

чем больше вирусов, тем круче антивирусы...
чем легче взлом САРТСНА, тем лучше будут САРТСНА...

AlexKolupaev Jun 13 2007 at 18:05

В посление годы из секьюрити-репортов исчезли новости о взломах core-систем юниксов. Как-то так получилось, что, видимо, все дырочки уже нашли и закрыли. Думается, роль хакеров в данном случае более важна, чем роль программистов, эти дырочки закрывших.

Spy Jun 13 2007 at 18:19

явление напоминает "конкуренцию", а она только на пользу...

AlexKolupaev Jun 13 2007 at 19:40

Именно!

abava Jun 13 2007 at 19:01

а есть ведь еще и эвристические методы: http://abava.blogspot.com/2006/09/spam-bot.html

blockdog Jun 13 2007 at 19:08

Пора бы уже задуматься на счет звуковой или видео защиты.
Мне кажется, распознать ее куда сложнее.
Не знаю, насколько это правда, но я всегда считал, что чем индивидуальней защита, тем сложнее ее взломать. Например, написать, что сейчас вы услышите звуки разной тональности, сосчитайте только низкие звуки.
Я переделывал Captcha защиту для форумного движка phpBB. Известно, что стандартную их защиту спам-боты очень легко обходят. Проблема решилась очень просто. Я сделал динамический (изменяемый) размер генерируемой картинки, и прикрутил сложные шрифты.
Также можно использовать какие-нибудь меняющиеся математические формулы.

Но все это не важно для больших ресурсов типа MySpace. Что бы они не придумали, это будет взломано за неделю, потому что очень большой интерес.

AlexKolupaev Jun 13 2007 at 19:55

К сожалению (хотя, скорее к счастью) у защищенности капчи есть вторая сторона - доступность. То есть - насколько легко ее пройти человеку. И этот показатель, на мой скромный взгляд, ничуть не менее важен. Потому чайт вы все-таки делаете для людей. Так вот: капча, с которой нужно сделать что-то другое (не просто ввести буквы с нее) - это уже очень серьезный удар. Потому что пользователь уже привык к этим забавным цветным картинкам повсюду. Он уже умеет пользоваться этим интерфейсом. Поменяйте концепцию - и масса пользователей прийдет в недоумение. Это так же как с инструкциями: их никто не читает. Поэтому ХОРОШИЙ продукт сделан так, что и без инструкции понятно, как им пользоваться. Так что до очень хорошей и значительно более защищенной идеи - ничего менять не стоит.

blockdog Jun 13 2007 at 20:40

Ну, люди же как-то привыкли к капчам, хотя раньше их не было. Привыкнут и к новой системе. Только это, действительно, должна быть очень хорошо продуманная система, чтобы через пару лет не пришлось придумывать новую.
А по поводу продукта без инструкции, есть один очень хороший форум, который я очень люблю. Так вот, на нем давно-давно при регистрации ввели такую проверку, что к коду активации нужно было прибавить текущую дату, умноженную на определенное число. Совершенно ничего сложного. Даже движок не переписывался, просто был известен алгоритм, и от хеша активации отрезали последние 4 цифры.
Спаммеров на этом форуме никогда не было и нет. Да и дегенератов, слава Богу, которые не смогли правильно активироваться, тоже не было.

AlexKolupaev Jun 13 2007 at 20:50

Есть разные сайты. Ну то есть не сами по себе разные, а по причинам взлома. Некоторые сайты ломают целенаправленно, потому что там интересно напакостить. Именно там. А есть сайты, устроенные одинаково, и привлекательные, соответственно, только в массе своей. Например, форумы на стандартном движке. Всякие ухищрения типа арифметических задач помогают вовсе не потому, что они какие-то очень удачные или эффективные. А потому, что они выдергивают сайт из ряде себе подобных. Поэтому, если ваш сайт не ломают - возможно он просто никому не нужен.

blockdog Jun 13 2007 at 21:00

Можете тогда оценить «качество» captcha картинки на этом форуме: http://www.mistforum.com/profile.php?mod…
Это как раз тот, где я переделывал алгоритм генерации этих картинок.

AlexKolupaev Jun 13 2007 at 21:11

Очень слабая. Шум лучше вообще уберите - его ОЧЕНЬ легко убрать билинейным фильтром (это вообще классика salt'n'pepper). Вообще, подумайте - насколько сложно будет убрать шум, состоящий из черных и белых точек, при том, что буквы - цветные. Вот серьезно - предположите.
Черные прямые отрезки - та же задача: насколько сложно убрать черные линии на рисунке, где цветные буквы написаны на белом фоне?
За разноцветные буквы - отдельное спасибо, даже если две буквы случайно слипнутся, не станет большой проблемой их разделить.

Из реальных трудностей: большое количество шрифтов, повоторы букв.
Преодолеваются: нейронной сетью и поворотом букв к единому углу (скажем к состоянию, когда центр масс займет самую нижнюю позицию). Хотя и без поворота - нейронная сеть вполне осилит. Просто надо будет делать ее сложнее и дольше учить.

blockdog Jun 13 2007 at 21:17

Ну, это совсем не страшно, потому что это как раз пример форума, который очень мало кому нужен (:

Кстати, а ребусы кто-нибудь применяет в качестве каптчей? Это же одно из первых решений, которые приходят в голову.

AlexKolupaev Jun 13 2007 at 21:20

Плохо. Автору нужно некоторое время чтобы забить список вопросов и правильных ответов, а хакеру - почитать вопорсы и вбить правильные ответы.
Расходы времени - примерно одинаковые.

blockdog Jun 14 2007 at 07:33

Ну, не все так плохо. Можно же сделать генерирование на основе стандартных подходов к ребусам. Например:

РЕНИТЬ

——————

  К

==
НАКРЕНИТЬ
Буквы в общем-то могут быть любыми.
Фишка в том, что стандартные инструменты будут пытаться распознать как обычную каптчу.
Ребусы — это вообще одна из возможных реализаций.
Идея в том, чтобы заключить какую-то логику в картинку.
Можно, например, над буквами писать цифры — последовательность, в которой нужно вводить эти буквы в поле.
Я понимаю, что если поставить подобное на большой сервис — это надолго не поможет, но если это использовать как скрипт для какого-нибудь сервиса (например, тот же движок форумов), то это может остановить львиную часть спаммеров.

AlexKolupaev Jun 14 2007 at 07:40

Да, видел я такую "логику". На кпче написано что-то вроде 23+75=
и надо ввести ответ.
Вы что - правда верите, что это серьезное затруднение?
Если к капче подходят индивидуально - не спасает.

tasman Jul 4 2007 at 19:18

А где можно почитать про билинейные фильтры? Или каково альтернативное название? Поиск как-то ничего не дал... Есть билинейная интерполяция, но это не похоже :)

AlexKolupaev Jul 5 2007 at 06:04

Ну например http://en.wikipedia.org/wiki/Bilinear_fi…

blockdog Jun 14 2007 at 07:34

Кстати, а что скажете про каптчу на dirty.ru: http://www.dirty.ru/login/

AlexKolupaev Jun 14 2007 at 07:41

Весьма слаба. Два билинейных фильтра избавят от тонких линий и от точек - останутся одни буквы.

timurv Jun 14 2007 at 09:59

А можно увидеть еще примеры каптч, которые, по твоему мнению, сложно распознать?

AlexKolupaev Jun 14 2007 at 10:07

Достаточно удачная у ICQ. Hotmail и Yahoo похожи, но хотмейл сложней в силу бОльшего количества символов.

AlexKolupaev Jun 14 2007 at 10:19

Да, новая Яндексовская - просто блеск, я в восторге. Отличная идея. Есть, что поковырять, но приведет ли это к чему-то - очень сильно не уверен.

blockdog Jun 17 2007 at 17:24

Можно я еще чуть-чуть попристаю?
Как вы можете оценить вот этот скрипт: http://www.webtoolbag.com/demo/captcha_z…

AlexKolupaev Jun 17 2007 at 17:45

слабо. Автор плохо представляет себе, что в его шумах дейстивтельно мешает распознаванию. Либо не может сделать ее при этом читабельной.
Начать надо с того, что удалить все цельносвязные объекты одного цвета, с весом меньше Х.
Останутся только настоящие буквы и полоски фона, которые будут сильно отличаться топографически. Все, буквы есть, в почти нетронутом виде

blockdog Jun 17 2007 at 18:38

А непосредственно в вашей программе есть алгоритмы для распознавания и правильного применения арифметических знаков?

AlexKolupaev Jun 18 2007 at 04:51

Вы - жертва перевода. Нет никакой "Программы". Я об этом написал в комментариях.
Мы пишем конкретные программы для конкретных капча-систем, которые могут распознать картинки именно этой капчи. Она эксплуатирует конкретную уязвимость. И, конечно, не подходит к другим картинкам.

smart Jun 16 2007 at 10:04

Непосредственно распознавать звуковые капчи я не пробовал, но много работал со звуком, поэтому могу сказать - звуковые капчи по идее тоже просто распознаются. По крайней мере "посчитайте низкие звуки" - это вообще элементарно. Чуть сложнее - произнесенные голосом слова (цифры например) - но тут тоже все сводится к тому, что звук будет формироваться из заранее записанных кусков, а значит его можно обратно на эти куски разобрать.

В любом случае, проблема всех captcha в том, что они синтезируются машиной - а значит могут быть машиной разобраны.

NumberOne Jun 13 2007 at 19:37

и правда на Oracle похоже...

cybermozg Jun 13 2007 at 20:06

Большинство каптч довольно просты. Достаточно убрать шумы, развернуть символы и скормить скажем gocr-у. Ещё лучше работает, если добавить шаблоны. Если хотя бы 30% удачно распознаётся, это уже выгодно.

З.Ы. Алексей и Ко молодцы, что занимаются этой проблемой.

AlexKolupaev Jun 13 2007 at 20:11

В этом году предлагал эту тему на phpconf - посчитали неинтересной...

cybermozg Jun 13 2007 at 20:12

ага. проблемы каптчей не существует.
как в ссср секса не было =)

AlexKolupaev Jun 13 2007 at 20:14

Нет, ну просто много всяких проблем есть. На все времени не хватит - остается выбирать существенные.

bendingunit22 Jun 14 2007 at 06:38

А зря посчитали неинтересной. С удовольствием бы послушал вместо какого-нибудь мемкеша.

smart Jun 16 2007 at 10:08

А на РИТ не пробовали предложить? И кстати, скоро же будет UA Web 2007 - давайте туда Вас предложим? (я просто имею отношение к организаотрам)

AlexKolupaev Jun 16 2007 at 12:46

Предложите. Я только за.

fisher Jun 18 2007 at 19:13

хм. а с кем говорили?

AlexKolupaev Jun 18 2007 at 19:46

Да с кем-то из оргов, ник phpclub - у Смирнова ж наверное?

fisher Jun 19 2007 at 19:59

да, смирнова. жаль, может ваша разработка капчи и не самая удачная (субъективное мнение - не воспринимайте как наезд, исключительно по читаемости и размер из-за этого картинки должен быть большой), но сама тема создания тяжело-ломаемых очень интересная. спрошу - интересно почему отказали.

slipper Jun 13 2007 at 20:18

а каптчу с Gmail'а сломали?

посмотрел
http://ocr-research.org.ua/list.html
тут жестчайший примитив, это ломает ЛЮБАЯ капта-распознавался в том числе и бесплатная.

А вот на взлом гуглоподобных каптч было бы интересно посмотреть.

AlexKolupaev Jun 13 2007 at 20:58

Подкиньте ссылку на какую-нибудь бесплатную капча-распознавалку.
Ну и покажите, какие именно капчи из списка она ломает.

С Гуглом все гораздо интереснее. Ее очень сложно ломать. У них очень сильная идея - один из лучших, которые я когда-либо видел.

slipper Jun 13 2007 at 21:43

Если мне не изменяет память, во всяких спамелках типа аллсабмитера есть распознавалки каптчи. Все что на первых 2х страницах ломается этими распознавалками. Вообще, все каптчи, которые строятся на добавлении шумов - есть примитив.

Что касается гугла, да ничего особенного в их алгоритме нет. И есть либы генерящие на ПХП точно такую же каптчу как у гугла, т.е. с нелинейным искажением символов и с их наложением друг на друга.

Я не вижу в чем тут «прорыва», и вообще ничего феноменального в так называемых разработках. То, что вам удается ломать каптчи объясняется их примитивностью и тупизной разработчиков сервисов/скриптов, которые юзают примитивные каптча-генерилки. «New York Times» пишет для «домохозяек», на IT публику такие статьи не прокатывают.

AlexKolupaev Jun 13 2007 at 21:45

Я, вообще-то, статей не пишу, и нигде своими результатами не кичусь. Я где-то как-то громко о себе заявлял?

slipper Jun 13 2007 at 21:52

Ремарка про статью - камень в огород New York Times, а не в Ваш.

AlexKolupaev Jun 13 2007 at 21:55

Ну, NYT это тоже не ИТ газета, все правильно - для домохозяек

Apostol Jun 13 2007 at 22:03

Кстати, тут есть сравнения алгоритмов построения каптч: http://captcha.ru/articles/visual/
И собственная каптча у Сергея (captcha.ru) не слабая. Осилите?

AlexKolupaev Jun 13 2007 at 22:06

По сути та же, что и у гугла. Одна из немногих, к которым мы не знаем, как подступиться.

smart Jun 16 2007 at 10:17

По моему, начать тут надо с "выравнивания", т.е. компенсации волнообразного искажения. Алгоритм искажения довольно простой, а зацепиться можно за то, что почти в каждой captcha-фразе есть буквы с прямыми (и даже вертикальными) линиями - d, b, h и т.п. То есть можно итеративно пробовать "обратные" преобразования, пока не найдем максимум прямых вертикальных линий - а дальше стандартно, разделяем и распознаем.

AlexKolupaev Jun 16 2007 at 12:47

Нет, самое сложное - разделить буквы.

smart Jun 16 2007 at 16:21

То есть инвертировать волну у вас получается? Если да, то в чем сложность разделения? Это же будет обычный ровный текст.

AlexKolupaev Jun 16 2007 at 16:51

Нет, это просто не нужно.
Ну и что что ровный текст. Что дальше?

cybermozg Jun 14 2007 at 05:35

И несмотря на сложность распознавания, у гугловой капчи отличная читабельность.

AlexKolupaev Jun 14 2007 at 06:17

Ну, что тут скажешь - гуглу респект и уважуха.

sp3ctr00m Jun 14 2007 at 07:20

чтото не пойму - что такого особенного в каптче гугла (gmail)?
по-моему все буквы несложно выделить (имея опыт в этом), построить скелет каждой, выровнять и распознать нейронной сетью

AlexKolupaev Jun 14 2007 at 07:29

Попробуйте.

Slash Jun 14 2007 at 04:57

Странно, но почему обязательно картинки? элементарная система проверки на способность МЫШЛЕНИЯ простенькими вопросами, типа "какого цвета солнце" и "сколько красных кружёчков на картинке" и риск быть заспамленным значительно уменьшается. нет, ну может быть у меня ещё не было проектов на несколько тысяч хитов в день, но достаточно было разместить такую простенькую системку на нескольких форумах и спамеров как не бывало. конечно, проблема тоже решаемая (всмысле взломать тоже можно), но наверное, проще проверить на способность думать, чем распознавать символы. может быть на рою ссылки по теме, но куда то все потерялись... я думаю, вы поняли, о чём я?

otaqsun Jun 14 2007 at 06:16

это приравнивается к задаче с ребусами и решается еще проще чем капчи читай тут http://www.habrahabr.ru/blog/spam/16971.html#comment212655

Raesvelg Jun 14 2007 at 06:18

Системы наподобие ALICE как раз имитируют способность мышления - дошли до того, что запоминают важные для контекста данные из разговора. Даже если придумаете вопрос, на который подобные боты не смогут ответить, спамер может запросто составить базу ответов для ваших форумов - на это у него уйдет гораздо меньше времени, чем у вас на написание новых вопросов.

vladon Jun 14 2007 at 06:21

набор вопросов-ответов ограничен. дальше думай сам. короче, это даже легче.

korchasa Jun 14 2007 at 06:31

А если набор вопросов не ограничен? Например распознавание образа не картинке, с гугловского поиска, по какому то ключевому слову.

vladon Jun 14 2007 at 06:32

а почему, интересно, "распознавалка" не может взять результаты поиска с гугла?

korchasa Jun 14 2007 at 06:35

1. Не факт, что в качестве словаря будет использоваться именно гугл
2. Как она по картинке будет восстанавливать ключевое слово?

AlexKolupaev Jun 14 2007 at 06:21

количество кружков посчитать проще, чем распознать буквы. Список вопросов взламываетс я за то же время, за которое и создается - вручную. Кроме того - очень плохое юзабилити у таких тестов. Надежности - столько же или меньше, а концепция другая. Как говаривал Стив Круг - Don't make me think.

unikom Jun 14 2007 at 07:23

Всёравно капче быть. Ведь не все купят у Колупаева его анти-капчу, а значит хоть какой-то процент ботов будет отсеян. И потом не стоит забывать о спаммерах-интузиастах, которые, сами, без всякиз распознавательных систем, кропатливо вводят буковки с капчи в своих ЗЛОнравных и ЗЛОнаправленных целях =D

AlexKolupaev Jun 14 2007 at 07:37

Проблема совсем не в этом. Дело в том, что мы по сути ничего мегаособенного не пишем. При должном усердии это может сделать любой умный программист. Более того - это делается, и мы в этом плане - капля в море. Просто они не делают сайтов и не дают интервью.
Я могу этим и не заниматься - но я не думаю, что это действительно сделает мир лучше. Даже та шумиха, которая поднялась из-за этой статьи - уже подтверждение того, что все не зря. Возможно, кто-то задумается над своей капчей и сделает ее лучше.

second_try Jun 14 2007 at 09:52

Уже :)))

h0dik Jun 14 2007 at 09:43

WaterCap
Автор утверждает, что у него очень сильная каптча. Весь код занимает 50 строчек. Ваше мнение?

AlexKolupaev Jun 14 2007 at 10:06

Где я это утверждаю?

AlexKolupaev Jun 14 2007 at 10:14

А, пардон, протупил.
Идея интересная. Не самая легкая для распознавания, безусловно.
Правда из-за специфики способа отображения букв не удастся ставить из слишком близко друг к другу (не прочитать), так что можно будет попробовать вычислить положения букв по проекциям.
Не уверен, надо пробовать.

JuriyOgijenko Jun 14 2007 at 20:30

На самом деле легко. Хоть ты и писал внизу, что "накладывание масок это не самая лучшая идея". Но это именно тот случай, когда надо применять маски. Да , кстати, спасибо автору за то что выложил примеры всех букв и цифр. :)

Growlin Jun 14 2007 at 09:46

...И назовет он ее "Колупалка".

sphere Jun 14 2007 at 09:52

Капча по фото: http://pictcha.net/
Картинки деформируются геометрически и по цвету. Настройки количества вывода, кеш, все дела.
Сто лет назад делал, да руки не дошли проверить. Но теоретическая сложность лома интересует.

AlexKolupaev Jun 14 2007 at 10:10

Да, похоже на новый вариант от майкрософт. Юзабилити под вопросом.

sphere Jun 14 2007 at 10:21

Строка ввода для тестов. Если её оставлять, наверное, буквы прилеплю к фоткам или ещё как.
Или что-то другое имеется в виду?

gornov Jun 14 2007 at 10:06

Некоторое время делали капчу для проекта, и пришли к выводу, что самые сложные для распознавания капчи, на которой каждая буква разбивается случайным образом на четыре части, затем каждая часть намного сдвигается и поворачивается на несколько градусов. Вся сложность распознавания в том, что нет конкретных шаблонов для букв, и восстановить первоначальный вид очень тяжело, а человеку достаточно просто прочесть.

AlexKolupaev Jun 14 2007 at 10:16

Распознавать символы сравнивая с шаблонами - не самый лучший вариант. Нейронные сети гораздо эффективнее.
Если удастся выделить отдельные буквы (пусть и порубленные на кусочки) - задача почти решена.

gornov Jun 14 2007 at 10:50

Здесь весь смысл, чтобы сложно было объединить части букв. Программа будет либо распознавать каждую часть отдельно, либо путать части от соседних букв. По крайней мере, такую капчу распознать гораздо сложнее, чем другие варианты.

AlexKolupaev Jun 14 2007 at 10:58

Нейронной сети, в целом, все равно - цела ли буква. Главное, чтобы она была на входе, и желательно, чтобы ничего кроме нее там не было.
Понять, какая часть от какой буквы будет, конечно, нелегко, однако надо посмотреть на то, как это будет выглядеть - возможно при таком условии и человеку будет слишком сложно прочесть.
В общем, говорить, конечно, интересно, но пока нет картинки - это просто разговоры.

gornov Jun 15 2007 at 08:39

Пример работы капчи, о которой я говорил.
Разбивка на 4 части:
http://st1.risunok.net/12192/1.jpg

Разбивка на 2 части:
http://st1.risunok.net/12191/2.jpg

Профессионалы по этой теме, оцените стойкость моих разработок.

AlexKolupaev Jun 15 2007 at 08:49

Ее же невозможно прочитать.

gornov Jun 15 2007 at 09:25

Ну, во-первых, не так уж сложно прочитать, по сравнению с другими нераспознаваемыми капчами, а во-вторых, это достаточно “тяжелый” режим, можно поставить меньше разнос.

AlexKolupaev Jun 15 2007 at 09:29

Чтобы не быть субъективным - давайте спросим еще кого-то, что же написано на этих картинках, и насколько легко это выяснить.

gornov Jun 15 2007 at 09:52

Давайте спросим, конечно.
Здесь тоже не понятно, что написано?
http://st1.risunok.net/12197/3.jpg

AlexKolupaev Jun 15 2007 at 10:13

Ну так это же уже совсем другая картинка. Еще малость - и получим гугловскую капчу.

JuriyOgijenko Jun 17 2007 at 05:30

Если исключить маленькие повороты сегментов букв, то твоя капча мало чем отличаеться от overture.
Вот пример картинки
Кстати, а overture мы распознали на 100%.
Теперь же рассматривая легкие отклонения частей букв, с уверенностью могу заявить, что процент распознавания упадет где то до 60-80, а читабельность до 0.

stager Jun 17 2007 at 06:20

QWRSA
EONXG

очень даже легко, намного проще чем некторые попадавшиеся в нете капчи :)

rojer Jun 15 2007 at 09:57

совершенно нечитабельно.
пару минут на пристально вглядывался в каждую и всё равно не уверен что правильно прочёл.

llamma Jun 14 2007 at 14:31

Концептуально капча - зло. О слепых подумали? 99% применяющих капчу владельцев ресурсов не обеспечивают альтернативного метода распознавания (звукового). Именно такой аргумент приводят многие авторы антикапчевых тулов, и я полностью их поддерживаю. Хватит дискриминировать незрячих (в том числе и ботов). Подумать головой надо: чего мы хотим добиться? Чтобы не спамили? То есть не рассылали массовый и нерелевантный контент? Ну так боритесь с массовостью (ограничение на частоту/объем) и нерелевантностью (ограничение на несловарные/иностранные слова, ссылки, черный список запрещенных слов и т.д.). Статистический анализ содержимого (добавить на 95% похожий текст не получится), и другие интеллектуальные, а не механические меры. Все равно когда-нибудь по части распознавания изображений программный интеллект догонит человеческий. А как защищаться от армии рабов, добросовестно распознающих капчи и постящих спам по центу за пост? Вот-вот.

h0dik Jun 14 2007 at 16:44

я так понял, что основная проблема - это выделить кусок с буквой на капче. для этого добавляют шум и тому подобное. а если сделать такую капчу: буквы наезжают друг на друга, но при этом читабельность сохраняется. это сильно усложнит задачу?

PS. на сколько сильная яндексовская капча?

dbf Jun 14 2007 at 20:47

ИМХО, если буквы одноцветные, то сильно наехать не получится, тогда можно с помощью морфологии расцепить. Ну а если одноцветные, то, как писалось выше, это совсем халява.

dbf Jun 14 2007 at 21:12

"Ну а если одноцветные" имелось ввиду, конечно же, "Ну а если разноцветные"

AlexKolupaev Jul 5 2007 at 06:14

Если сделать как Вы говорите - получится гугловая.

Сильная у Яндекса, сильная.

miolini Jun 14 2007 at 18:57

а сколько будет стоит распознование капчи гугла?

Deenamo Jun 14 2007 at 19:20

Самая классная каптча это hotcaptcha.com

agentru Jun 17 2007 at 18:19

Тоже самое, что вопрос-ответ, набрал базу красивые-некрасивые и все...

goods Jan 17 2008 at 11:45

А как вам такая картинка?
Легко ли её распознать?

goods Jan 17 2008 at 11:53

простите. каюсь. ссылка вот: http://w3box.ru/code1.php

egoserg Mar 30 2010 at 13:16

Ай да красавец, ай да сукин сын.
Мне пришлось с ним работать в одной компании.
Потом он подался в Киев а я остался в Харькове.
Молодец Алексей, так держать.