alizar13 июн 2007 в 14:14

Алексей Колупаев признался, что делает CAPTCHA-распознавалку для спамеров

1 мин

2.3K

Спам и антиспам

+40

199

Комментарии 199

Lola2grp 13 июн 2007 в 14:19

Упорный парень...
А действительно - почему бы не постучаться раз сто..? :)

zhuravl 13 июн 2007 в 18:04

Эта проблема легко решается. Тот, кто постучится более 5 раз подряд с неправильной капчей попадает в IP black list и больше не будет стучаться вообще.

AlexKolupaev 13 июн 2007 в 18:14

Абсолютно верно - бота, атакующего с помощью не слишком хорошей OCR можно эффективно вычислять с помощью статистических эвристик. Даже банальное слишком большое количество сабмитов формы с одного IP - очень характерный признак.

НЛО прилетело и опубликовало эту надпись здесь

AlexKolupaev 13 июн 2007 в 19:42

Да, но это повышает стоимость проекта. И приближает ее к бессмысленной.

НЛО прилетело и опубликовало эту надпись здесь

AlexKolupaev 13 июн 2007 в 20:04

И тем не менее, защита интерфейса капчей - это вопрос установления цены его взлома. Предельная цена - это, скажем, цент за картинку. Если написать OCR будет дороже - никто ее не будет трогать. (конечно сложно сравнивать программу, теоретически могущую работать бесконечно долго и тружеников, оплачиваемых сдельно, но тем не менее).

НЛО прилетело и опубликовало эту надпись здесь

AlexKolupaev 13 июн 2007 в 20:09

Точно.

cybermozg 13 июн 2007 в 20:11

Эхх... это кажется фантастикой. Хотя может быть когда-нибудь мир в мире наступит =)

kiev 13 июн 2007 в 21:20

долой колупатых спамеров и их подельников!
капчи бывают разные, достаточно задать простой логический вопрос, иск интеллект колупатым не под силу.

flint 14 июн 2007 в 12:01

Вы знаете, искажение фамилии — оскорбление.

Про простой логический вопрос — это вы смешно, конечно.

kiev 14 июн 2007 в 13:08

извиняюсь, просто достали эти спамеры которых весь мир проклинает.

НЛО прилетело и опубликовало эту надпись здесь

AlexKolupaev 15 июн 2007 в 20:19

Пока не ломают ИМЕННО ЕЕ - работает. Но не дольше.

mayhem 3 дек 2007 в 00:47

ради интереса порефрешил страничку, которая идет в статье как пример. там на форуме аж три вопроса. для нормальной защиты надо нормальная база. Может оно и ничего но системку тож при желании пройти можно. например имея в базе соответствие "дважды два" - "четыре" можно легко пройти любые вопросы типа "сколько будет дважды два". А если задавать слишком умные вопросы типа "в чем суть марксистского диалектизма в трудах Ленина раннего периода" то регистрация на форуме превратится в игру "О, Счасливчик".

olegich 14 июн 2007 в 07:07

Компьютерные мощности постоянно дешевеют, так что вопрос стоимости - это лишь вопрос времени.
Бороться в лоб смысла нет - большие потери для обоих сторон. Надо делать так что б смысла спамить не было.

DEL 14 июн 2007 в 10:23

На счет IP black list прокси еще никто не отменял)

bird2gt 14 июн 2007 в 12:00

brute force attack: если в сердце дверь закрыта - надо в печень постучать :-)

не знаю их эту систему я видел или нет - но есть обучаемые системы распознования.
им несколько раз надо "помочь" и дальше работает с все увеличивающимся процентом попадания.
Вспомнил: для рапидшары такая программка была

TheBits 13 июн 2007 в 14:34

Мне показалось что свой логотип они распознали на сайте Oracle…

НЛО прилетело и опубликовало эту надпись здесь

AlexKolupaev 13 июн 2007 в 18:01

Да, дизайнеру передам привет :)

Apostol 13 июн 2007 в 21:29

А владельцам сайтов, капчи которых были распознаны, кому привет передавать? ;)

AlexKolupaev 13 июн 2007 в 21:35

Сложный вопрос. Ваши предложения?

Apostol 13 июн 2007 в 21:47

Я к тому, что они тоже не будут рады, когда ихний сайт "закажут" у вас спамеры. Такая работа должна проводиться в образовательных целях, но не для коммерческих взломов.

AlexKolupaev 13 июн 2007 в 21:52

С радостью наймусь туда, где мне будут платить за образовательную работу.

Я ж говорю - я предлагал эту тему на конференции - программистам она неинтересна.

gorinich 14 июн 2007 в 09:09

ocr.prj.zaebiz.com - Ваше творение?

AlexKolupaev 14 июн 2007 в 10:04

Нет, в первый раз вижу.

gorinich 14 июн 2007 в 11:16

Картинки с bigmir)net распознает, только что попробовал ;)
Пока я не видел картинок, которые он не распознавал. Конечно ошибается, но процент ошибок достаточно мал.

AlexKolupaev 14 июн 2007 в 11:57

Интересно, надо посмотреть.

Mofas 13 июн 2007 в 14:38

Вот они, люди, которые развивают спам во всех его проявлениях.

AlexKolupaev 13 июн 2007 в 17:38

Не спам, а системы защиты от спама. Разница небольшая, но существенная.

diamant 13 июн 2007 в 17:41

защиту от защиты. или систему взлома защиты от спама.

AlexKolupaev 13 июн 2007 в 17:52

Настолько ли это разные вещи?
Что за капчу может написать программист, ничего не знающий о том, как их взламывают, и, соответственно, как этому противодействовать?

Markovnin 13 июн 2007 в 15:04

вроде где-то на хабре писали про альтернативы CAPTCHA...

Severus 13 июн 2007 в 15:34

Да, анимированная CAPTCHA

bask 13 июн 2007 в 17:00

анимированная капча - всего-навсего набор статичных картинок, которые можно либо распознать по отдельности, либо объединить вместе и распознать результирующее изображение

AlexKolupaev 13 июн 2007 в 18:09

Верно. Анимация может привнести дополнительные сложности, но не привносит концептуально новых преград. Можно отрисовывать на флеше. Есть вот варианты с псевдографикой. Это существенно не меняет суть проблемы.

AlexeyMas 18 июн 2007 в 12:11

А как оцениваете в Вебмани защиту?
Там именно анимацией :)
В принципе апроксимировать это нельзя вроде бы. Хотя если сделать нарезку кадров и разложить то можно. Но если сделать вращение - было бы забавно.

AlexKolupaev 18 июн 2007 в 12:40

Насколько я помню защиту в вебманях - там три циферки отдельно стоящие и просто шрифт-размер у каждой из них скачет? Это по сути даже легче, есть втрое больше информации чем нужно. Если что-то не так будет с одной буквой - можно распознать другую. Хотя что может быть не так с обычными шрифтами примерно одного размера... Так что изюминки не увидел.

entze 13 июн 2007 в 15:25

Ну вот .. взяли и полили пацанов грязью :) А ведь

Our work is devided in two:
1. Breaking known CAPTCHAs to prove it's weakness,
2. Creating new safe CAPTCHA.

http://ocr-research.org.ua/teabag.html

Так что давайте теперь производителей "болгарок" будем винить в кражах :)

AHTOH 13 июн 2007 в 21:39

Ложное сравнение.
Тут уместнее было "давайте теперь производителей взрывчатки будем винить во взрывах".

Все же они производят продукт специально для ВЛОМА. И их отмазки сродни надписи "Это не СПАМ" в начале письма со спамом.

AlexKolupaev 13 июн 2007 в 22:07

А также продукт специально против взлома.

AHTOH 13 июн 2007 в 22:50

О да! Сами пишем вирусы, сами пишем антивирусы для них :)

AlexKolupaev 14 июн 2007 в 04:17

Почему - для них?

AHTOH 14 июн 2007 в 09:39

Ну, для них, потому что разрабатываются алгоритмы для сложных случаев и разрабатываются сложные случаи, к которым не подходят эти алгоритмы.

AlexKolupaev 14 июн 2007 в 10:05

а, ну да. Типа того.

Dr_Logic 15 июн 2007 в 21:12

чтобы продать новую САРТСНА надо сначал скомпроментировать старую - это бизнес.

Utkin 13 июн 2007 в 15:42

Его бы энергию, да в мирных целях.

paradonado 13 июн 2007 в 18:28

тут уже проблема в деньгах
в мирных целях неполучат они сколько денег с заказов
клише можно также сравнить с торговлей оружия

maserg 13 июн 2007 в 15:53

галимая у них распозновалка....

maserg 13 июн 2007 в 16:22

работает он теперь в бигмире, поэтому при регистрации у них используется вот такая вот фигуська

http://passport.bigmir.net/registration/

m4rr 13 июн 2007 в 17:59

афигенно! ваще продумано хорошо. видимо машине это распознать реально сложно.

AlexeyMas 14 июн 2007 в 00:25

там ей же сто лет :) подобной схеме

AlexeyMas 14 июн 2007 в 00:26

кстати такая штука ломается ничуть не хуже других
даже лучше

xiao 14 июн 2007 в 02:29

такую картинку легко повернуть в прямоугольное состояние и она станет очень похожа на обычные

НЛО прилетело и опубликовало эту надпись здесь

Raesvelg 13 июн 2007 в 19:09

В этом алгоритме мне не нравятся две вещи:
- Сетка, в которой "выдавлены" буквы, слишком предсказуема - если ее просчитать и выделить все части, где просчитанное изображение не соответствует имеющемуся - можно получить вполне узнаваемые буквы.
- Если применить к изображению размытие, контуры букв выделяются с одной стороны более светлой частью (подъемом), а с другой - более темной (резким обрывом, сливающимся из-за угла зрения с сеткой за ним). Если убрать однородный шум, получившийся размытием из основной сетки, опять же получаются контуры букв.

Сразу говорю, не специалист, однако эти две детали, как мне кажется, могут упростить взлом этой конкретной каптчи.

AlexKolupaev 13 июн 2007 в 19:44

Все верно, уязвимости есть. Мы работаем над следующей версией :)

НЛО прилетело и опубликовало эту надпись здесь

Raesvelg 13 июн 2007 в 15:54

Недавно узнал про веселенький сервис, делающий абсолютно все каптча-картинки бесполезными - сервер обмена каптчами. Действует это просто - вы "разгадываете" чужую каптчу, а другие пользователи, когда придет время, "разгадают" вашу. Для спамеров такой подход неинтересен - не те масштабы, но для различных сервисов вроде рапидшары он незаменим - использование ручного распознавания дает практически стопроцентный результат.

Spy 13 июн 2007 в 18:00

интересный сервис с социальной направленностью :)

AlexKolupaev 13 июн 2007 в 18:17

Кстати я читал о неких, скажем так, организациях, нанимающих людей в странах с дешевым рабочим временем, и эти люди сидят, и в три смены занимаются тем, что распознают капча-картинки. Цена распознания одной картинки в такой схеме - порядка одного-двух центов.

Spy 13 июн 2007 в 19:46

не позавидуешь этим "рабочим"

AlexKolupaev 13 июн 2007 в 19:47

Да как сказать. Работка непыльная.

Spy 13 июн 2007 в 19:52

день, два, неделю... потом тошнить начнет от такой работы. Рутина полная

школьникам, конечно, самое то :)

AlexKolupaev 13 июн 2007 в 19:57

То ли дело дворником вкалывать. Или, скажем, шахтером. Или, например, в макдональдсе. Понятно, что тяги никакой, но скольким людям приходится так работать? "Так тут они хотя бы в тепле!" (с) М.М.Ж.
Видели фотографии - как живет обычные люди в Китае, Индии? На какое количество денег они питаются в неделю?
Тут уж - смотря на то как посмотреть.

kiev 13 июн 2007 в 21:26

мораль одна - поменьше беспризорных сайтов, делать премодерацию и нанимать больше китайцев для модерации интерактива, а то и живые люди столько гадят в интерактиве что никакие капчи не спасут

fanex 19 июн 2007 в 20:02

Лучше набрать китайцев, чтобы они рисовали капчи. Уникальные будут - без сомнений :)

sokolster 13 июн 2007 в 22:45

а что мешает написать распознавалку для капча определённого сервиса ?
сидишь смотришь а денежка капает =)

AlexKolupaev 14 июн 2007 в 08:56

Капча и мешает. В этом ее смысл.

AirWorker 16 июн 2007 в 06:01

Капчисты :D

yozh 17 июн 2007 в 09:18

о, ну что ты, есть ведь и бесплатные способы )) например, ты - турецкий молодой человек, и очень хочешь посмотреть воооон то видео с дядями и тётями - но тебя просят для этого всего лишь ввести капчу. ну разве ты не введёшь?) работает на 100%. а ведь иногда можно им показать две капчи подряд - сорри, первую вы ввели неправильно ,)

AlexKolupaev 17 июн 2007 в 09:58

ну это конечнго если у тебя как раз завалялось пара суперпосещаемых порносайтов и ты готов пожертвовать их юзабилити. То есть по итогу это стоит ничуть не дешевле.

hazard2 13 июн 2007 в 19:51

Дык нормальные сервисы айпишники проверяют, и ставят ограничение по времени.

sokolster 13 июн 2007 в 22:48

незабыаем про сокс и анонимайзеры, много сервисов готово предоставить вам "много" разных айпи за небольшую плату

m0sia 14 июн 2007 в 13:37

например? просто интересно.

sokolster 14 июн 2007 в 16:05

sockschain

m0sia 14 июн 2007 в 19:29

дык это утилита. я спрашивал про сервисы, которые дают "много разных айпи за небольшую плату"

sokolster 15 июн 2007 в 22:57

не думаю что коректно будет где-нибуть оглашать такие сервисы -)
те которые я использую(в совершенно мирных целях) против левых клиентов(ну или подставных. тут такое дело)

p.s. кто ищет тот всегда найдёт

Vox 13 июн 2007 в 16:03

Автомическое распознование каптч очень удобно при скачивании файлов со всяких файлопомоек.

beeruser 13 июн 2007 в 16:26

>> We just want to prove weakness of some systems. And sell them our CAPTCHA.

"Зачем мне твой щит, если он не защитит от твоего меча? Зачем мне твой меч, если он
не пробьет твоего щита?" (с)

fanex 19 июн 2007 в 20:03

Точно, "Босой ученый"!

hedin 13 июн 2007 в 16:35

вот список нетрадиционных защит(NOT GAY)
Особенно понравилось идея про пазл. Все руки никак не доходят реализовать.

AlexKolupaev 13 июн 2007 в 16:55

Привет, хабралюди.
Статья переведена (и сильно, я смотрю, доработана) со статьи в New York Times. За время, прошедшее с момента взятия у меня интервью до появления вот этого вот перевода, как я вижу, содержание существенно изменилось.
Вставлю некоторые ремарки по переводу.

1. Украинский хакер - это, конечно, доставай зачотку.
2. Создал программу - это тоже бред. Даже в оригинальной статье, насколько я помню, такого нет. Речь идет не о "серебрянной пуле", никакой Программы нет. Есть отдельные программки, распознающие конкретные CAPTCHA картинки одного конкретного генератора.
3. Одна из киевских интернет-компаний, как тут справедливо заметили - это bigmir)net
4. Предприниматели организовали компанию - это тоже отличная фраза. Автор, откуда? Откуда компания? Какие предприниматели? Ты что? Мы просто сделали сайт, и на нем публикуем результаты наших изысков.
5. "Украинцы говорят, что могут настроить свою программу на решение любого типа CAPTCHA." - обожаю журналистику! Отродясь ничего подобного не говорил. Хотя, фраза скользкая. Вполне вероятно, имеются в виду какие-то другие абстрактные украинцы, которые всякое, как видно, говорят. Еще раз - нет никакой "программы", и уж конечно не для "любого типа CAPTCHA"

Ну и про "признался" - это конечно самый хот.

Мы не делаем различия в том, кто к нам обратился. Нам нравится этим заниматься, а если за это предлагают заплатить - почему бы и нет. Результаты - на сайте. Надеюсь они заставят авторов откровенно плохих капча-защит задуматься.

otaqsun 13 июн 2007 в 18:00

с фоткой хоть не наврали =) ?
ps а сколько предлагать заплатить? особенно за "...настроить свою программу на решение любого типа CAPTCHA.", очень любопытно... хотя я тоже занимался OCR в некотором роде, разрабатывал систему распознавания отпечатков пальцев(С#/asp .NET 2.0), эх помню было много забавных приключений.

AlexKolupaev 13 июн 2007 в 18:03

Нет, NYT специально своего фотокорра присылал. Сейчас прямо с этого самого места и пишу.
Предлагают по разному. Самое поразительное предложение было $75k за ticketmaster.com. Правда там были своеобразные условия, и мы отказались.

otaqsun 14 июн 2007 в 05:59

хорошенькая сумма. хотя наверно тикетмастер того стоит, тк барыги на билетах очень сильно поднимаются, я думаю окупилось бы буквально за один концерт мадонны.

AlexKolupaev 14 июн 2007 в 06:18

Чего не знаю - того не знаю. Мне интересно с картинками возиться

otaqsun 14 июн 2007 в 07:09

я тоже по чуть чуть, правда времени не хватает, а еще меня заинтересовала распознавание видео в реально м времени, тоже оч интересная штука, тем более после распознавания отпечатков пальцев, создать распознавания по лицу)) кароче к появлению Большого Ьрата все готово. Кста слышал американская или канадская фирма (название не помню) недавно выпустила совершенно новую, самую умную систему распознавания лиц работающую в реальном времени, причем относительно не требовательная к камерам (вернее ей подходит та сеть камер что сейчас покрывает США). Вот тестят вовсю, пока успешно. Вообщем как ты понял я по биометрическому распознаванию =).

AlexKolupaev 14 июн 2007 в 07:32

Да, классная тема. Есть над чем подумать.

cybrarian 13 июн 2007 в 20:03

ну, ализаров известен своим наплевательским отношением к английскому и к достоверности, я его тут уже 2 раза уличал

но пока он будет переводить - пипл будет это хавать, это ж блин "веб 2.0", "сотня леммингов не может быть неправой"

типа "IT-желтушник"

AlexKolupaev 13 июн 2007 в 20:06

Удивительное ощуение - давать интервью, а потом объяснять, что то, что опубликовали - никогда не говорил...

cybrarian 13 июн 2007 в 20:41

Самое поганое - что пока я ваш комментарий не прочитал, у меня такой негативный образ этого самого Алексей Колупаева создался - сидит какой-то безвестный хакер, защиту сайтов курочит за деньги бесстыдно, а за этого его еще NY Times интервьюирует.

cybrarian 13 июн 2007 в 20:50

посмотрел текст NY Times - если всё описанное там - правда, то ваша деятельность действительно неоднозначна

сам испытывал неоднозначные ощущения, когда обнаружил у клиента на сайте sql-инъекцию и исследовал её с тем, чтобы потом отослать им отчёт и рекомендации по закрытию дыр

m0sia 14 июн 2007 в 13:43

в нашем городке на десяток писем вебмастерам о sql инъекциях ни отклинулся и не ответил ни один. Что делать? Даже письма в ответ не прислали. И конечно ничегошеньки не пофиксили. Как с такими боротся?

m0sia 14 июн 2007 в 13:45

чтото ошибок много в комментарии наделал

pa3ot 17 июн 2007 в 15:00

sql-инъекциями с ними и бороться

AlexKolupaev 13 июн 2007 в 20:52

Вопрос этически действительно неоднозначен. Из ситуации можно сделать прямо противоположные суждения.

AlexeyMas 14 июн 2007 в 00:31

так так и есть :)
взлом капчи - фактически взлом сайта
взлом капчи за деньги - взлом сайта за деньги

а тот, кто заказал взлом, потом выльет грязь на ваш сайт

kappa 13 июн 2007 в 21:56

Алексей, как по-вашему, действительно ли сейчас можно уверенно сказать, что взлом CAPTCHA это на 90% сегментация картинки и только на 10% — распознавание сегментов в символы?

AlexKolupaev 13 июн 2007 в 21:58

Да. Если удается эффективно разбить картинку на набор картинок с символами - это практически гарантия. Механизм нейронных сетей работает в этом плане отлично.

Spy 13 июн 2007 в 18:02

чем больше вирусов, тем круче антивирусы...
чем легче взлом САРТСНА, тем лучше будут САРТСНА...

AlexKolupaev 13 июн 2007 в 18:05

В посление годы из секьюрити-репортов исчезли новости о взломах core-систем юниксов. Как-то так получилось, что, видимо, все дырочки уже нашли и закрыли. Думается, роль хакеров в данном случае более важна, чем роль программистов, эти дырочки закрывших.

Spy 13 июн 2007 в 18:19

явление напоминает "конкуренцию", а она только на пользу...

AlexKolupaev 13 июн 2007 в 19:40

Именно!

abava 13 июн 2007 в 19:01

а есть ведь еще и эвристические методы: http://abava.blogspot.com/2006/09/spam-bot.html

blockdog 13 июн 2007 в 19:08

Пора бы уже задуматься на счет звуковой или видео защиты.
Мне кажется, распознать ее куда сложнее.
Не знаю, насколько это правда, но я всегда считал, что чем индивидуальней защита, тем сложнее ее взломать. Например, написать, что сейчас вы услышите звуки разной тональности, сосчитайте только низкие звуки.
Я переделывал Captcha защиту для форумного движка phpBB. Известно, что стандартную их защиту спам-боты очень легко обходят. Проблема решилась очень просто. Я сделал динамический (изменяемый) размер генерируемой картинки, и прикрутил сложные шрифты.
Также можно использовать какие-нибудь меняющиеся математические формулы.

Но все это не важно для больших ресурсов типа MySpace. Что бы они не придумали, это будет взломано за неделю, потому что очень большой интерес.

AlexKolupaev 13 июн 2007 в 19:55

К сожалению (хотя, скорее к счастью) у защищенности капчи есть вторая сторона - доступность. То есть - насколько легко ее пройти человеку. И этот показатель, на мой скромный взгляд, ничуть не менее важен. Потому чайт вы все-таки делаете для людей. Так вот: капча, с которой нужно сделать что-то другое (не просто ввести буквы с нее) - это уже очень серьезный удар. Потому что пользователь уже привык к этим забавным цветным картинкам повсюду. Он уже умеет пользоваться этим интерфейсом. Поменяйте концепцию - и масса пользователей прийдет в недоумение. Это так же как с инструкциями: их никто не читает. Поэтому ХОРОШИЙ продукт сделан так, что и без инструкции понятно, как им пользоваться. Так что до очень хорошей и значительно более защищенной идеи - ничего менять не стоит.

blockdog 13 июн 2007 в 20:40

Ну, люди же как-то привыкли к капчам, хотя раньше их не было. Привыкнут и к новой системе. Только это, действительно, должна быть очень хорошо продуманная система, чтобы через пару лет не пришлось придумывать новую.
А по поводу продукта без инструкции, есть один очень хороший форум, который я очень люблю. Так вот, на нем давно-давно при регистрации ввели такую проверку, что к коду активации нужно было прибавить текущую дату, умноженную на определенное число. Совершенно ничего сложного. Даже движок не переписывался, просто был известен алгоритм, и от хеша активации отрезали последние 4 цифры.
Спаммеров на этом форуме никогда не было и нет. Да и дегенератов, слава Богу, которые не смогли правильно активироваться, тоже не было.

AlexKolupaev 13 июн 2007 в 20:50

Есть разные сайты. Ну то есть не сами по себе разные, а по причинам взлома. Некоторые сайты ломают целенаправленно, потому что там интересно напакостить. Именно там. А есть сайты, устроенные одинаково, и привлекательные, соответственно, только в массе своей. Например, форумы на стандартном движке. Всякие ухищрения типа арифметических задач помогают вовсе не потому, что они какие-то очень удачные или эффективные. А потому, что они выдергивают сайт из ряде себе подобных. Поэтому, если ваш сайт не ломают - возможно он просто никому не нужен.

blockdog 13 июн 2007 в 21:00

Можете тогда оценить «качество» captcha картинки на этом форуме: http://www.mistforum.com/profile.php?mod…
Это как раз тот, где я переделывал алгоритм генерации этих картинок.

AlexKolupaev 13 июн 2007 в 21:11

Очень слабая. Шум лучше вообще уберите - его ОЧЕНЬ легко убрать билинейным фильтром (это вообще классика salt'n'pepper). Вообще, подумайте - насколько сложно будет убрать шум, состоящий из черных и белых точек, при том, что буквы - цветные. Вот серьезно - предположите.
Черные прямые отрезки - та же задача: насколько сложно убрать черные линии на рисунке, где цветные буквы написаны на белом фоне?
За разноцветные буквы - отдельное спасибо, даже если две буквы случайно слипнутся, не станет большой проблемой их разделить.

Из реальных трудностей: большое количество шрифтов, повоторы букв.
Преодолеваются: нейронной сетью и поворотом букв к единому углу (скажем к состоянию, когда центр масс займет самую нижнюю позицию). Хотя и без поворота - нейронная сеть вполне осилит. Просто надо будет делать ее сложнее и дольше учить.

blockdog 13 июн 2007 в 21:17

Ну, это совсем не страшно, потому что это как раз пример форума, который очень мало кому нужен (:

Кстати, а ребусы кто-нибудь применяет в качестве каптчей? Это же одно из первых решений, которые приходят в голову.

AlexKolupaev 13 июн 2007 в 21:20

Плохо. Автору нужно некоторое время чтобы забить список вопросов и правильных ответов, а хакеру - почитать вопорсы и вбить правильные ответы.
Расходы времени - примерно одинаковые.

blockdog 14 июн 2007 в 07:33

Ну, не все так плохо. Можно же сделать генерирование на основе стандартных подходов к ребусам. Например:

РЕНИТЬ

——————

  К

==
НАКРЕНИТЬ
Буквы в общем-то могут быть любыми.
Фишка в том, что стандартные инструменты будут пытаться распознать как обычную каптчу.
Ребусы — это вообще одна из возможных реализаций.
Идея в том, чтобы заключить какую-то логику в картинку.
Можно, например, над буквами писать цифры — последовательность, в которой нужно вводить эти буквы в поле.
Я понимаю, что если поставить подобное на большой сервис — это надолго не поможет, но если это использовать как скрипт для какого-нибудь сервиса (например, тот же движок форумов), то это может остановить львиную часть спаммеров.

AlexKolupaev 14 июн 2007 в 07:40

Да, видел я такую "логику". На кпче написано что-то вроде 23+75=
и надо ввести ответ.
Вы что - правда верите, что это серьезное затруднение?
Если к капче подходят индивидуально - не спасает.

tasman 4 июл 2007 в 19:18

А где можно почитать про билинейные фильтры? Или каково альтернативное название? Поиск как-то ничего не дал... Есть билинейная интерполяция, но это не похоже :)

AlexKolupaev 5 июл 2007 в 06:04

Ну например http://en.wikipedia.org/wiki/Bilinear_fi…

blockdog 14 июн 2007 в 07:34

Кстати, а что скажете про каптчу на dirty.ru: http://www.dirty.ru/login/

AlexKolupaev 14 июн 2007 в 07:41

Весьма слаба. Два билинейных фильтра избавят от тонких линий и от точек - останутся одни буквы.

timurv 14 июн 2007 в 09:59

А можно увидеть еще примеры каптч, которые, по твоему мнению, сложно распознать?

AlexKolupaev 14 июн 2007 в 10:07

Достаточно удачная у ICQ. Hotmail и Yahoo похожи, но хотмейл сложней в силу бОльшего количества символов.

AlexKolupaev 14 июн 2007 в 10:19

Да, новая Яндексовская - просто блеск, я в восторге. Отличная идея. Есть, что поковырять, но приведет ли это к чему-то - очень сильно не уверен.

blockdog 17 июн 2007 в 17:24

Можно я еще чуть-чуть попристаю?
Как вы можете оценить вот этот скрипт: http://www.webtoolbag.com/demo/captcha_z…

AlexKolupaev 17 июн 2007 в 17:45

слабо. Автор плохо представляет себе, что в его шумах дейстивтельно мешает распознаванию. Либо не может сделать ее при этом читабельной.
Начать надо с того, что удалить все цельносвязные объекты одного цвета, с весом меньше Х.
Останутся только настоящие буквы и полоски фона, которые будут сильно отличаться топографически. Все, буквы есть, в почти нетронутом виде

blockdog 17 июн 2007 в 18:38

А непосредственно в вашей программе есть алгоритмы для распознавания и правильного применения арифметических знаков?

AlexKolupaev 18 июн 2007 в 04:51

Вы - жертва перевода. Нет никакой "Программы". Я об этом написал в комментариях.
Мы пишем конкретные программы для конкретных капча-систем, которые могут распознать картинки именно этой капчи. Она эксплуатирует конкретную уязвимость. И, конечно, не подходит к другим картинкам.

smart 16 июн 2007 в 10:04

Непосредственно распознавать звуковые капчи я не пробовал, но много работал со звуком, поэтому могу сказать - звуковые капчи по идее тоже просто распознаются. По крайней мере "посчитайте низкие звуки" - это вообще элементарно. Чуть сложнее - произнесенные голосом слова (цифры например) - но тут тоже все сводится к тому, что звук будет формироваться из заранее записанных кусков, а значит его можно обратно на эти куски разобрать.

В любом случае, проблема всех captcha в том, что они синтезируются машиной - а значит могут быть машиной разобраны.

NumberOne 13 июн 2007 в 19:37

и правда на Oracle похоже...

cybermozg 13 июн 2007 в 20:06

Большинство каптч довольно просты. Достаточно убрать шумы, развернуть символы и скормить скажем gocr-у. Ещё лучше работает, если добавить шаблоны. Если хотя бы 30% удачно распознаётся, это уже выгодно.

З.Ы. Алексей и Ко молодцы, что занимаются этой проблемой.

AlexKolupaev 13 июн 2007 в 20:11

В этом году предлагал эту тему на phpconf - посчитали неинтересной...

cybermozg 13 июн 2007 в 20:12

ага. проблемы каптчей не существует.
как в ссср секса не было =)

AlexKolupaev 13 июн 2007 в 20:14

Нет, ну просто много всяких проблем есть. На все времени не хватит - остается выбирать существенные.

bendingunit22 14 июн 2007 в 06:38

А зря посчитали неинтересной. С удовольствием бы послушал вместо какого-нибудь мемкеша.

smart 16 июн 2007 в 10:08

А на РИТ не пробовали предложить? И кстати, скоро же будет UA Web 2007 - давайте туда Вас предложим? (я просто имею отношение к организаотрам)

AlexKolupaev 16 июн 2007 в 12:46

Предложите. Я только за.

fisher 18 июн 2007 в 19:13

хм. а с кем говорили?

AlexKolupaev 18 июн 2007 в 19:46

Да с кем-то из оргов, ник phpclub - у Смирнова ж наверное?

fisher 19 июн 2007 в 19:59

да, смирнова. жаль, может ваша разработка капчи и не самая удачная (субъективное мнение - не воспринимайте как наезд, исключительно по читаемости и размер из-за этого картинки должен быть большой), но сама тема создания тяжело-ломаемых очень интересная. спрошу - интересно почему отказали.

slipper 13 июн 2007 в 20:18

а каптчу с Gmail'а сломали?

посмотрел
http://ocr-research.org.ua/list.html
тут жестчайший примитив, это ломает ЛЮБАЯ капта-распознавался в том числе и бесплатная.

А вот на взлом гуглоподобных каптч было бы интересно посмотреть.

AlexKolupaev 13 июн 2007 в 20:58

Подкиньте ссылку на какую-нибудь бесплатную капча-распознавалку.
Ну и покажите, какие именно капчи из списка она ломает.

С Гуглом все гораздо интереснее. Ее очень сложно ломать. У них очень сильная идея - один из лучших, которые я когда-либо видел.

slipper 13 июн 2007 в 21:43

Если мне не изменяет память, во всяких спамелках типа аллсабмитера есть распознавалки каптчи. Все что на первых 2х страницах ломается этими распознавалками. Вообще, все каптчи, которые строятся на добавлении шумов - есть примитив.

Что касается гугла, да ничего особенного в их алгоритме нет. И есть либы генерящие на ПХП точно такую же каптчу как у гугла, т.е. с нелинейным искажением символов и с их наложением друг на друга.

Я не вижу в чем тут «прорыва», и вообще ничего феноменального в так называемых разработках. То, что вам удается ломать каптчи объясняется их примитивностью и тупизной разработчиков сервисов/скриптов, которые юзают примитивные каптча-генерилки. «New York Times» пишет для «домохозяек», на IT публику такие статьи не прокатывают.

AlexKolupaev 13 июн 2007 в 21:45

Я, вообще-то, статей не пишу, и нигде своими результатами не кичусь. Я где-то как-то громко о себе заявлял?

slipper 13 июн 2007 в 21:52

Ремарка про статью - камень в огород New York Times, а не в Ваш.

AlexKolupaev 13 июн 2007 в 21:55

Ну, NYT это тоже не ИТ газета, все правильно - для домохозяек

Apostol 13 июн 2007 в 22:03

Кстати, тут есть сравнения алгоритмов построения каптч: http://captcha.ru/articles/visual/
И собственная каптча у Сергея (captcha.ru) не слабая. Осилите?

AlexKolupaev 13 июн 2007 в 22:06

По сути та же, что и у гугла. Одна из немногих, к которым мы не знаем, как подступиться.

smart 16 июн 2007 в 10:17

По моему, начать тут надо с "выравнивания", т.е. компенсации волнообразного искажения. Алгоритм искажения довольно простой, а зацепиться можно за то, что почти в каждой captcha-фразе есть буквы с прямыми (и даже вертикальными) линиями - d, b, h и т.п. То есть можно итеративно пробовать "обратные" преобразования, пока не найдем максимум прямых вертикальных линий - а дальше стандартно, разделяем и распознаем.

AlexKolupaev 16 июн 2007 в 12:47

Нет, самое сложное - разделить буквы.

smart 16 июн 2007 в 16:21

То есть инвертировать волну у вас получается? Если да, то в чем сложность разделения? Это же будет обычный ровный текст.

AlexKolupaev 16 июн 2007 в 16:51

Нет, это просто не нужно.
Ну и что что ровный текст. Что дальше?

cybermozg 14 июн 2007 в 05:35

И несмотря на сложность распознавания, у гугловой капчи отличная читабельность.

AlexKolupaev 14 июн 2007 в 06:17

Ну, что тут скажешь - гуглу респект и уважуха.

sp3ctr00m 14 июн 2007 в 07:20

чтото не пойму - что такого особенного в каптче гугла (gmail)?
по-моему все буквы несложно выделить (имея опыт в этом), построить скелет каждой, выровнять и распознать нейронной сетью

AlexKolupaev 14 июн 2007 в 07:29

Попробуйте.

Slash 14 июн 2007 в 04:57

Странно, но почему обязательно картинки? элементарная система проверки на способность МЫШЛЕНИЯ простенькими вопросами, типа "какого цвета солнце" и "сколько красных кружёчков на картинке" и риск быть заспамленным значительно уменьшается. нет, ну может быть у меня ещё не было проектов на несколько тысяч хитов в день, но достаточно было разместить такую простенькую системку на нескольких форумах и спамеров как не бывало. конечно, проблема тоже решаемая (всмысле взломать тоже можно), но наверное, проще проверить на способность думать, чем распознавать символы. может быть на рою ссылки по теме, но куда то все потерялись... я думаю, вы поняли, о чём я?

otaqsun 14 июн 2007 в 06:16

это приравнивается к задаче с ребусами и решается еще проще чем капчи читай тут http://www.habrahabr.ru/blog/spam/16971.html#comment212655

Raesvelg 14 июн 2007 в 06:18

Системы наподобие ALICE как раз имитируют способность мышления - дошли до того, что запоминают важные для контекста данные из разговора. Даже если придумаете вопрос, на который подобные боты не смогут ответить, спамер может запросто составить базу ответов для ваших форумов - на это у него уйдет гораздо меньше времени, чем у вас на написание новых вопросов.

vladon 14 июн 2007 в 06:21

набор вопросов-ответов ограничен. дальше думай сам. короче, это даже легче.

korchasa 14 июн 2007 в 06:31

А если набор вопросов не ограничен? Например распознавание образа не картинке, с гугловского поиска, по какому то ключевому слову.

vladon 14 июн 2007 в 06:32

а почему, интересно, "распознавалка" не может взять результаты поиска с гугла?

korchasa 14 июн 2007 в 06:35

1. Не факт, что в качестве словаря будет использоваться именно гугл
2. Как она по картинке будет восстанавливать ключевое слово?

AlexKolupaev 14 июн 2007 в 06:21

количество кружков посчитать проще, чем распознать буквы. Список вопросов взламываетс я за то же время, за которое и создается - вручную. Кроме того - очень плохое юзабилити у таких тестов. Надежности - столько же или меньше, а концепция другая. Как говаривал Стив Круг - Don't make me think.

unikom 14 июн 2007 в 07:23

Всёравно капче быть. Ведь не все купят у Колупаева его анти-капчу, а значит хоть какой-то процент ботов будет отсеян. И потом не стоит забывать о спаммерах-интузиастах, которые, сами, без всякиз распознавательных систем, кропатливо вводят буковки с капчи в своих ЗЛОнравных и ЗЛОнаправленных целях =D

AlexKolupaev 14 июн 2007 в 07:37

Проблема совсем не в этом. Дело в том, что мы по сути ничего мегаособенного не пишем. При должном усердии это может сделать любой умный программист. Более того - это делается, и мы в этом плане - капля в море. Просто они не делают сайтов и не дают интервью.
Я могу этим и не заниматься - но я не думаю, что это действительно сделает мир лучше. Даже та шумиха, которая поднялась из-за этой статьи - уже подтверждение того, что все не зря. Возможно, кто-то задумается над своей капчей и сделает ее лучше.

second_try 14 июн 2007 в 09:52

Уже :)))

h0dik 14 июн 2007 в 09:43

WaterCap
Автор утверждает, что у него очень сильная каптча. Весь код занимает 50 строчек. Ваше мнение?

AlexKolupaev 14 июн 2007 в 10:06

Где я это утверждаю?

AlexKolupaev 14 июн 2007 в 10:14

А, пардон, протупил.
Идея интересная. Не самая легкая для распознавания, безусловно.
Правда из-за специфики способа отображения букв не удастся ставить из слишком близко друг к другу (не прочитать), так что можно будет попробовать вычислить положения букв по проекциям.
Не уверен, надо пробовать.

JuriyOgijenko 14 июн 2007 в 20:30

На самом деле легко. Хоть ты и писал внизу, что "накладывание масок это не самая лучшая идея". Но это именно тот случай, когда надо применять маски. Да , кстати, спасибо автору за то что выложил примеры всех букв и цифр. :)

Growlin 14 июн 2007 в 09:46

...И назовет он ее "Колупалка".

sphere 14 июн 2007 в 09:52

Капча по фото: http://pictcha.net/
Картинки деформируются геометрически и по цвету. Настройки количества вывода, кеш, все дела.
Сто лет назад делал, да руки не дошли проверить. Но теоретическая сложность лома интересует.

AlexKolupaev 14 июн 2007 в 10:10

Да, похоже на новый вариант от майкрософт. Юзабилити под вопросом.

sphere 14 июн 2007 в 10:21

Строка ввода для тестов. Если её оставлять, наверное, буквы прилеплю к фоткам или ещё как.
Или что-то другое имеется в виду?

gornov 14 июн 2007 в 10:06

Некоторое время делали капчу для проекта, и пришли к выводу, что самые сложные для распознавания капчи, на которой каждая буква разбивается случайным образом на четыре части, затем каждая часть намного сдвигается и поворачивается на несколько градусов. Вся сложность распознавания в том, что нет конкретных шаблонов для букв, и восстановить первоначальный вид очень тяжело, а человеку достаточно просто прочесть.

AlexKolupaev 14 июн 2007 в 10:16

Распознавать символы сравнивая с шаблонами - не самый лучший вариант. Нейронные сети гораздо эффективнее.
Если удастся выделить отдельные буквы (пусть и порубленные на кусочки) - задача почти решена.

gornov 14 июн 2007 в 10:50

Здесь весь смысл, чтобы сложно было объединить части букв. Программа будет либо распознавать каждую часть отдельно, либо путать части от соседних букв. По крайней мере, такую капчу распознать гораздо сложнее, чем другие варианты.

AlexKolupaev 14 июн 2007 в 10:58

Нейронной сети, в целом, все равно - цела ли буква. Главное, чтобы она была на входе, и желательно, чтобы ничего кроме нее там не было.
Понять, какая часть от какой буквы будет, конечно, нелегко, однако надо посмотреть на то, как это будет выглядеть - возможно при таком условии и человеку будет слишком сложно прочесть.
В общем, говорить, конечно, интересно, но пока нет картинки - это просто разговоры.

gornov 15 июн 2007 в 08:39

Пример работы капчи, о которой я говорил.
Разбивка на 4 части:
http://st1.risunok.net/12192/1.jpg

Разбивка на 2 части:
http://st1.risunok.net/12191/2.jpg

Профессионалы по этой теме, оцените стойкость моих разработок.

AlexKolupaev 15 июн 2007 в 08:49

Ее же невозможно прочитать.

gornov 15 июн 2007 в 09:25

Ну, во-первых, не так уж сложно прочитать, по сравнению с другими нераспознаваемыми капчами, а во-вторых, это достаточно “тяжелый” режим, можно поставить меньше разнос.

AlexKolupaev 15 июн 2007 в 09:29

Чтобы не быть субъективным - давайте спросим еще кого-то, что же написано на этих картинках, и насколько легко это выяснить.

gornov 15 июн 2007 в 09:52

Давайте спросим, конечно.
Здесь тоже не понятно, что написано?
http://st1.risunok.net/12197/3.jpg

AlexKolupaev 15 июн 2007 в 10:13

Ну так это же уже совсем другая картинка. Еще малость - и получим гугловскую капчу.

JuriyOgijenko 17 июн 2007 в 05:30

Если исключить маленькие повороты сегментов букв, то твоя капча мало чем отличаеться от overture.
Вот пример картинки
Кстати, а overture мы распознали на 100%.
Теперь же рассматривая легкие отклонения частей букв, с уверенностью могу заявить, что процент распознавания упадет где то до 60-80, а читабельность до 0.

stager 17 июн 2007 в 06:20

QWRSA
EONXG

очень даже легко, намного проще чем некторые попадавшиеся в нете капчи :)

rojer 15 июн 2007 в 09:57

совершенно нечитабельно.
пару минут на пристально вглядывался в каждую и всё равно не уверен что правильно прочёл.

llamma 14 июн 2007 в 14:31

Концептуально капча - зло. О слепых подумали? 99% применяющих капчу владельцев ресурсов не обеспечивают альтернативного метода распознавания (звукового). Именно такой аргумент приводят многие авторы антикапчевых тулов, и я полностью их поддерживаю. Хватит дискриминировать незрячих (в том числе и ботов). Подумать головой надо: чего мы хотим добиться? Чтобы не спамили? То есть не рассылали массовый и нерелевантный контент? Ну так боритесь с массовостью (ограничение на частоту/объем) и нерелевантностью (ограничение на несловарные/иностранные слова, ссылки, черный список запрещенных слов и т.д.). Статистический анализ содержимого (добавить на 95% похожий текст не получится), и другие интеллектуальные, а не механические меры. Все равно когда-нибудь по части распознавания изображений программный интеллект догонит человеческий. А как защищаться от армии рабов, добросовестно распознающих капчи и постящих спам по центу за пост? Вот-вот.

h0dik 14 июн 2007 в 16:44

я так понял, что основная проблема - это выделить кусок с буквой на капче. для этого добавляют шум и тому подобное. а если сделать такую капчу: буквы наезжают друг на друга, но при этом читабельность сохраняется. это сильно усложнит задачу?

PS. на сколько сильная яндексовская капча?

dbf 14 июн 2007 в 20:47

ИМХО, если буквы одноцветные, то сильно наехать не получится, тогда можно с помощью морфологии расцепить. Ну а если одноцветные, то, как писалось выше, это совсем халява.

dbf 14 июн 2007 в 21:12

"Ну а если одноцветные" имелось ввиду, конечно же, "Ну а если разноцветные"

AlexKolupaev 5 июл 2007 в 06:14

Если сделать как Вы говорите - получится гугловая.

Сильная у Яндекса, сильная.

miolini 14 июн 2007 в 18:57

а сколько будет стоит распознование капчи гугла?

Deenamo 14 июн 2007 в 19:20

Самая классная каптча — это hotcaptcha.com

agentru 17 июн 2007 в 18:19

Тоже самое, что вопрос-ответ, набрал базу красивые-некрасивые и все...

goods 17 янв 2008 в 11:45

А как вам такая картинка?
Легко ли её распознать?

goods 17 янв 2008 в 11:53

простите. каюсь. ссылка вот: http://w3box.ru/code1.php

egoserg 30 мар 2010 в 13:16

Ай да красавец, ай да сукин сын.
Мне пришлось с ним работать в одной компании.
Потом он подался в Киев а я остался в Харькове.
Молодец Алексей, так держать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий