Pull to refresh

Comments 199

Упорный парень...
А действительно - почему бы не постучаться раз сто..? :)
Эта проблема легко решается. Тот, кто постучится более 5 раз подряд с неправильной капчей попадает в IP black list и больше не будет стучаться вообще.
Абсолютно верно - бота, атакующего с помощью не слишком хорошей OCR можно эффективно вычислять с помощью статистических эвристик. Даже банальное слишком большое количество сабмитов формы с одного IP - очень характерный признак.
UFO landed and left these words here
Да, но это повышает стоимость проекта. И приближает ее к бессмысленной.
UFO landed and left these words here
И тем не менее, защита интерфейса капчей - это вопрос установления цены его взлома. Предельная цена - это, скажем, цент за картинку. Если написать OCR будет дороже - никто ее не будет трогать. (конечно сложно сравнивать программу, теоретически могущую работать бесконечно долго и тружеников, оплачиваемых сдельно, но тем не менее).
UFO landed and left these words here
Эхх... это кажется фантастикой. Хотя может быть когда-нибудь мир в мире наступит =)
долой колупатых спамеров и их подельников!
капчи бывают разные, достаточно задать простой логический вопрос, иск интеллект колупатым не под силу.
Вы знаете, искажение фамилии — оскорбление.

Про простой логический вопрос — это вы смешно, конечно.
извиняюсь, просто достали эти спамеры которых весь мир проклинает.
UFO landed and left these words here
Пока не ломают ИМЕННО ЕЕ - работает. Но не дольше.
ради интереса порефрешил страничку, которая идет в статье как пример. там на форуме аж три вопроса. для нормальной защиты надо нормальная база. Может оно и ничего но системку тож при желании пройти можно. например имея в базе соответствие "дважды два" - "четыре" можно легко пройти любые вопросы типа "сколько будет дважды два". А если задавать слишком умные вопросы типа "в чем суть марксистского диалектизма в трудах Ленина раннего периода" то регистрация на форуме превратится в игру "О, Счасливчик".
Компьютерные мощности постоянно дешевеют, так что вопрос стоимости - это лишь вопрос времени.
Бороться в лоб смысла нет - большие потери для обоих сторон. Надо делать так что б смысла спамить не было.
На счет IP black list прокси еще никто не отменял)
brute force attack: если в сердце дверь закрыта - надо в печень постучать :-)

не знаю их эту систему я видел или нет - но есть обучаемые системы распознования.
им несколько раз надо "помочь" и дальше работает с все увеличивающимся процентом попадания.
Вспомнил: для рапидшары такая программка была
Мне показалось что свой логотип они распознали на сайте Oracle…
UFO landed and left these words here
А владельцам сайтов, капчи которых были распознаны, кому привет передавать? ;)
Сложный вопрос. Ваши предложения?
Я к тому, что они тоже не будут рады, когда ихний сайт "закажут" у вас спамеры. Такая работа должна проводиться в образовательных целях, но не для коммерческих взломов.
С радостью наймусь туда, где мне будут платить за образовательную работу.

Я ж говорю - я предлагал эту тему на конференции - программистам она неинтересна.
ocr.prj.zaebiz.com - Ваше творение?
Картинки с bigmir)net распознает, только что попробовал ;)
Пока я не видел картинок, которые он не распознавал. Конечно ошибается, но процент ошибок достаточно мал.
Вот они, люди, которые развивают спам во всех его проявлениях.
Не спам, а системы защиты от спама. Разница небольшая, но существенная.
защиту от защиты. или систему взлома защиты от спама.
Настолько ли это разные вещи?
Что за капчу может написать программист, ничего не знающий о том, как их взламывают, и, соответственно, как этому противодействовать?
вроде где-то на хабре писали про альтернативы CAPTCHA...
Да, анимированная CAPTCHA
анимированная капча - всего-навсего набор статичных картинок, которые можно либо распознать по отдельности, либо объединить вместе и распознать результирующее изображение
Верно. Анимация может привнести дополнительные сложности, но не привносит концептуально новых преград. Можно отрисовывать на флеше. Есть вот варианты с псевдографикой. Это существенно не меняет суть проблемы.
А как оцениваете в Вебмани защиту?
Там именно анимацией :)
В принципе апроксимировать это нельзя вроде бы. Хотя если сделать нарезку кадров и разложить то можно. Но если сделать вращение - было бы забавно.
Насколько я помню защиту в вебманях - там три циферки отдельно стоящие и просто шрифт-размер у каждой из них скачет? Это по сути даже легче, есть втрое больше информации чем нужно. Если что-то не так будет с одной буквой - можно распознать другую. Хотя что может быть не так с обычными шрифтами примерно одного размера... Так что изюминки не увидел.
Ну вот .. взяли и полили пацанов грязью :) А ведь
Our work is devided in two:
1. Breaking known CAPTCHAs to prove it's weakness,
2. Creating new safe CAPTCHA.

http://ocr-research.org.ua/teabag.html

Так что давайте теперь производителей "болгарок" будем винить в кражах :)
Ложное сравнение.
Тут уместнее было "давайте теперь производителей взрывчатки будем винить во взрывах".

Все же они производят продукт специально для ВЛОМА. И их отмазки сродни надписи "Это не СПАМ" в начале письма со спамом.
А также продукт специально против взлома.
О да! Сами пишем вирусы, сами пишем антивирусы для них :)
Ну, для них, потому что разрабатываются алгоритмы для сложных случаев и разрабатываются сложные случаи, к которым не подходят эти алгоритмы.
чтобы продать новую САРТСНА надо сначал скомпроментировать старую - это бизнес.
Его бы энергию, да в мирных целях.
тут уже проблема в деньгах
в мирных целях неполучат они сколько денег с заказов
клише можно также сравнить с торговлей оружия
работает он теперь в бигмире, поэтому при регистрации у них используется вот такая вот фигуська

http://passport.bigmir.net/registration/
афигенно! ваще продумано хорошо. видимо машине это распознать реально сложно.
там ей же сто лет :) подобной схеме
кстати такая штука ломается ничуть не хуже других
даже лучше
такую картинку легко повернуть в прямоугольное состояние и она станет очень похожа на обычные
UFO landed and left these words here
В этом алгоритме мне не нравятся две вещи:
- Сетка, в которой "выдавлены" буквы, слишком предсказуема - если ее просчитать и выделить все части, где просчитанное изображение не соответствует имеющемуся - можно получить вполне узнаваемые буквы.
- Если применить к изображению размытие, контуры букв выделяются с одной стороны более светлой частью (подъемом), а с другой - более темной (резким обрывом, сливающимся из-за угла зрения с сеткой за ним). Если убрать однородный шум, получившийся размытием из основной сетки, опять же получаются контуры букв.

Сразу говорю, не специалист, однако эти две детали, как мне кажется, могут упростить взлом этой конкретной каптчи.
Все верно, уязвимости есть. Мы работаем над следующей версией :)
UFO landed and left these words here
Недавно узнал про веселенький сервис, делающий абсолютно все каптча-картинки бесполезными - сервер обмена каптчами. Действует это просто - вы "разгадываете" чужую каптчу, а другие пользователи, когда придет время, "разгадают" вашу. Для спамеров такой подход неинтересен - не те масштабы, но для различных сервисов вроде рапидшары он незаменим - использование ручного распознавания дает практически стопроцентный результат.
интересный сервис с социальной направленностью :)
Кстати я читал о неких, скажем так, организациях, нанимающих людей в странах с дешевым рабочим временем, и эти люди сидят, и в три смены занимаются тем, что распознают капча-картинки. Цена распознания одной картинки в такой схеме - порядка одного-двух центов.
не позавидуешь этим "рабочим"
Да как сказать. Работка непыльная.
день, два, неделю... потом тошнить начнет от такой работы. Рутина полная

школьникам, конечно, самое то :)
То ли дело дворником вкалывать. Или, скажем, шахтером. Или, например, в макдональдсе. Понятно, что тяги никакой, но скольким людям приходится так работать? "Так тут они хотя бы в тепле!" (с) М.М.Ж.
Видели фотографии - как живет обычные люди в Китае, Индии? На какое количество денег они питаются в неделю?
Тут уж - смотря на то как посмотреть.
мораль одна - поменьше беспризорных сайтов, делать премодерацию и нанимать больше китайцев для модерации интерактива, а то и живые люди столько гадят в интерактиве что никакие капчи не спасут
Лучше набрать китайцев, чтобы они рисовали капчи. Уникальные будут - без сомнений :)
а что мешает написать распознавалку для капча определённого сервиса ?
сидишь смотришь а денежка капает =)
Капча и мешает. В этом ее смысл.
о, ну что ты, есть ведь и бесплатные способы )) например, ты - турецкий молодой человек, и очень хочешь посмотреть воооон то видео с дядями и тётями - но тебя просят для этого всего лишь ввести капчу. ну разве ты не введёшь?) работает на 100%. а ведь иногда можно им показать две капчи подряд - сорри, первую вы ввели неправильно ,)
ну это конечнго если у тебя как раз завалялось пара суперпосещаемых порносайтов и ты готов пожертвовать их юзабилити. То есть по итогу это стоит ничуть не дешевле.
Дык нормальные сервисы айпишники проверяют, и ставят ограничение по времени.
незабыаем про сокс и анонимайзеры, много сервисов готово предоставить вам "много" разных айпи за небольшую плату
например? просто интересно.
дык это утилита. я спрашивал про сервисы, которые дают "много разных айпи за небольшую плату"
не думаю что коректно будет где-нибуть оглашать такие сервисы -)
те которые я использую(в совершенно мирных целях) против левых клиентов(ну или подставных. тут такое дело)

p.s. кто ищет тот всегда найдёт
Автомическое распознование каптч очень удобно при скачивании файлов со всяких файлопомоек.
>> We just want to prove weakness of some systems. And sell them our CAPTCHA.

"Зачем мне твой щит, если он не защитит от твоего меча? Зачем мне твой меч, если он
не пробьет твоего щита?" (с)
Точно, "Босой ученый"!
Привет, хабралюди.
Статья переведена (и сильно, я смотрю, доработана) со статьи в New York Times. За время, прошедшее с момента взятия у меня интервью до появления вот этого вот перевода, как я вижу, содержание существенно изменилось.
Вставлю некоторые ремарки по переводу.

1. Украинский хакер - это, конечно, доставай зачотку.
2. Создал программу - это тоже бред. Даже в оригинальной статье, насколько я помню, такого нет. Речь идет не о "серебрянной пуле", никакой Программы нет. Есть отдельные программки, распознающие конкретные CAPTCHA картинки одного конкретного генератора.
3. Одна из киевских интернет-компаний, как тут справедливо заметили - это bigmir)net
4. Предприниматели организовали компанию - это тоже отличная фраза. Автор, откуда? Откуда компания? Какие предприниматели? Ты что? Мы просто сделали сайт, и на нем публикуем результаты наших изысков.
5. "Украинцы говорят, что могут настроить свою программу на решение любого типа CAPTCHA." - обожаю журналистику! Отродясь ничего подобного не говорил. Хотя, фраза скользкая. Вполне вероятно, имеются в виду какие-то другие абстрактные украинцы, которые всякое, как видно, говорят. Еще раз - нет никакой "программы", и уж конечно не для "любого типа CAPTCHA"

Ну и про "признался" - это конечно самый хот.

Мы не делаем различия в том, кто к нам обратился. Нам нравится этим заниматься, а если за это предлагают заплатить - почему бы и нет. Результаты - на сайте. Надеюсь они заставят авторов откровенно плохих капча-защит задуматься.
с фоткой хоть не наврали =) ?
ps а сколько предлагать заплатить? особенно за "...настроить свою программу на решение любого типа CAPTCHA.", очень любопытно... хотя я тоже занимался OCR в некотором роде, разрабатывал систему распознавания отпечатков пальцев(С#/asp .NET 2.0), эх помню было много забавных приключений.
Нет, NYT специально своего фотокорра присылал. Сейчас прямо с этого самого места и пишу.
Предлагают по разному. Самое поразительное предложение было $75k за ticketmaster.com. Правда там были своеобразные условия, и мы отказались.
хорошенькая сумма. хотя наверно тикетмастер того стоит, тк барыги на билетах очень сильно поднимаются, я думаю окупилось бы буквально за один концерт мадонны.
Чего не знаю - того не знаю. Мне интересно с картинками возиться
я тоже по чуть чуть, правда времени не хватает, а еще меня заинтересовала распознавание видео в реально м времени, тоже оч интересная штука, тем более после распознавания отпечатков пальцев, создать распознавания по лицу)) кароче к появлению Большого Ьрата все готово. Кста слышал американская или канадская фирма (название не помню) недавно выпустила совершенно новую, самую умную систему распознавания лиц работающую в реальном времени, причем относительно не требовательная к камерам (вернее ей подходит та сеть камер что сейчас покрывает США). Вот тестят вовсю, пока успешно. Вообщем как ты понял я по биометрическому распознаванию =).
Да, классная тема. Есть над чем подумать.
ну, ализаров известен своим наплевательским отношением к английскому и к достоверности, я его тут уже 2 раза уличал

но пока он будет переводить - пипл будет это хавать, это ж блин "веб 2.0", "сотня леммингов не может быть неправой"

типа "IT-желтушник"
Удивительное ощуение - давать интервью, а потом объяснять, что то, что опубликовали - никогда не говорил...
Самое поганое - что пока я ваш комментарий не прочитал, у меня такой негативный образ этого самого Алексей Колупаева создался - сидит какой-то безвестный хакер, защиту сайтов курочит за деньги бесстыдно, а за этого его еще NY Times интервьюирует.
посмотрел текст NY Times - если всё описанное там - правда, то ваша деятельность действительно неоднозначна

сам испытывал неоднозначные ощущения, когда обнаружил у клиента на сайте sql-инъекцию и исследовал её с тем, чтобы потом отослать им отчёт и рекомендации по закрытию дыр
в нашем городке на десяток писем вебмастерам о sql инъекциях ни отклинулся и не ответил ни один. Что делать? Даже письма в ответ не прислали. И конечно ничегошеньки не пофиксили. Как с такими боротся?
чтото ошибок много в комментарии наделал
sql-инъекциями с ними и бороться
Вопрос этически действительно неоднозначен. Из ситуации можно сделать прямо противоположные суждения.
так так и есть :)
взлом капчи - фактически взлом сайта
взлом капчи за деньги - взлом сайта за деньги

а тот, кто заказал взлом, потом выльет грязь на ваш сайт
Алексей, как по-вашему, действительно ли сейчас можно уверенно сказать, что взлом CAPTCHA это на 90% сегментация картинки и только на 10% — распознавание сегментов в символы?
Да. Если удается эффективно разбить картинку на набор картинок с символами - это практически гарантия. Механизм нейронных сетей работает в этом плане отлично.
чем больше вирусов, тем круче антивирусы...
чем легче взлом САРТСНА, тем лучше будут САРТСНА...
В посление годы из секьюрити-репортов исчезли новости о взломах core-систем юниксов. Как-то так получилось, что, видимо, все дырочки уже нашли и закрыли. Думается, роль хакеров в данном случае более важна, чем роль программистов, эти дырочки закрывших.
явление напоминает "конкуренцию", а она только на пользу...
а есть ведь еще и эвристические методы: http://abava.blogspot.com/2006/09/spam-bot.html
Пора бы уже задуматься на счет звуковой или видео защиты.
Мне кажется, распознать ее куда сложнее.
Не знаю, насколько это правда, но я всегда считал, что чем индивидуальней защита, тем сложнее ее взломать. Например, написать, что сейчас вы услышите звуки разной тональности, сосчитайте только низкие звуки.
Я переделывал Captcha защиту для форумного движка phpBB. Известно, что стандартную их защиту спам-боты очень легко обходят. Проблема решилась очень просто. Я сделал динамический (изменяемый) размер генерируемой картинки, и прикрутил сложные шрифты.
Также можно использовать какие-нибудь меняющиеся математические формулы.

Но все это не важно для больших ресурсов типа MySpace. Что бы они не придумали, это будет взломано за неделю, потому что очень большой интерес.
К сожалению (хотя, скорее к счастью) у защищенности капчи есть вторая сторона - доступность. То есть - насколько легко ее пройти человеку. И этот показатель, на мой скромный взгляд, ничуть не менее важен. Потому чайт вы все-таки делаете для людей. Так вот: капча, с которой нужно сделать что-то другое (не просто ввести буквы с нее) - это уже очень серьезный удар. Потому что пользователь уже привык к этим забавным цветным картинкам повсюду. Он уже умеет пользоваться этим интерфейсом. Поменяйте концепцию - и масса пользователей прийдет в недоумение. Это так же как с инструкциями: их никто не читает. Поэтому ХОРОШИЙ продукт сделан так, что и без инструкции понятно, как им пользоваться. Так что до очень хорошей и значительно более защищенной идеи - ничего менять не стоит.
Ну, люди же как-то привыкли к капчам, хотя раньше их не было. Привыкнут и к новой системе. Только это, действительно, должна быть очень хорошо продуманная система, чтобы через пару лет не пришлось придумывать новую.
А по поводу продукта без инструкции, есть один очень хороший форум, который я очень люблю. Так вот, на нем давно-давно при регистрации ввели такую проверку, что к коду активации нужно было прибавить текущую дату, умноженную на определенное число. Совершенно ничего сложного. Даже движок не переписывался, просто был известен алгоритм, и от хеша активации отрезали последние 4 цифры.
Спаммеров на этом форуме никогда не было и нет. Да и дегенератов, слава Богу, которые не смогли правильно активироваться, тоже не было.
Есть разные сайты. Ну то есть не сами по себе разные, а по причинам взлома. Некоторые сайты ломают целенаправленно, потому что там интересно напакостить. Именно там. А есть сайты, устроенные одинаково, и привлекательные, соответственно, только в массе своей. Например, форумы на стандартном движке. Всякие ухищрения типа арифметических задач помогают вовсе не потому, что они какие-то очень удачные или эффективные. А потому, что они выдергивают сайт из ряде себе подобных. Поэтому, если ваш сайт не ломают - возможно он просто никому не нужен.
Можете тогда оценить «качество» captcha картинки на этом форуме: http://www.mistforum.com/profile.php?mod…
Это как раз тот, где я переделывал алгоритм генерации этих картинок.
Очень слабая. Шум лучше вообще уберите - его ОЧЕНЬ легко убрать билинейным фильтром (это вообще классика salt'n'pepper). Вообще, подумайте - насколько сложно будет убрать шум, состоящий из черных и белых точек, при том, что буквы - цветные. Вот серьезно - предположите.
Черные прямые отрезки - та же задача: насколько сложно убрать черные линии на рисунке, где цветные буквы написаны на белом фоне?
За разноцветные буквы - отдельное спасибо, даже если две буквы случайно слипнутся, не станет большой проблемой их разделить.

Из реальных трудностей: большое количество шрифтов, повоторы букв.
Преодолеваются: нейронной сетью и поворотом букв к единому углу (скажем к состоянию, когда центр масс займет самую нижнюю позицию). Хотя и без поворота - нейронная сеть вполне осилит. Просто надо будет делать ее сложнее и дольше учить.
Ну, это совсем не страшно, потому что это как раз пример форума, который очень мало кому нужен (:

Кстати, а ребусы кто-нибудь применяет в качестве каптчей? Это же одно из первых решений, которые приходят в голову.
Плохо. Автору нужно некоторое время чтобы забить список вопросов и правильных ответов, а хакеру - почитать вопорсы и вбить правильные ответы.
Расходы времени - примерно одинаковые.
Ну, не все так плохо. Можно же сделать генерирование на основе стандартных подходов к ребусам. Например:
РЕНИТЬ
——————
К

==
НАКРЕНИТЬ
Буквы в общем-то могут быть любыми.
Фишка в том, что стандартные инструменты будут пытаться распознать как обычную каптчу.
Ребусы — это вообще одна из возможных реализаций.
Идея в том, чтобы заключить какую-то логику в картинку.
Можно, например, над буквами писать цифры — последовательность, в которой нужно вводить эти буквы в поле.
Я понимаю, что если поставить подобное на большой сервис — это надолго не поможет, но если это использовать как скрипт для какого-нибудь сервиса (например, тот же движок форумов), то это может остановить львиную часть спаммеров.
Да, видел я такую "логику". На кпче написано что-то вроде 23+75=
и надо ввести ответ.
Вы что - правда верите, что это серьезное затруднение?
Если к капче подходят индивидуально - не спасает.
А где можно почитать про билинейные фильтры? Или каково альтернативное название? Поиск как-то ничего не дал... Есть билинейная интерполяция, но это не похоже :)
Весьма слаба. Два билинейных фильтра избавят от тонких линий и от точек - останутся одни буквы.
А можно увидеть еще примеры каптч, которые, по твоему мнению, сложно распознать?
Достаточно удачная у ICQ. Hotmail и Yahoo похожи, но хотмейл сложней в силу бОльшего количества символов.
Да, новая Яндексовская - просто блеск, я в восторге. Отличная идея. Есть, что поковырять, но приведет ли это к чему-то - очень сильно не уверен.
слабо. Автор плохо представляет себе, что в его шумах дейстивтельно мешает распознаванию. Либо не может сделать ее при этом читабельной.
Начать надо с того, что удалить все цельносвязные объекты одного цвета, с весом меньше Х.
Останутся только настоящие буквы и полоски фона, которые будут сильно отличаться топографически. Все, буквы есть, в почти нетронутом виде
А непосредственно в вашей программе есть алгоритмы для распознавания и правильного применения арифметических знаков?
Вы - жертва перевода. Нет никакой "Программы". Я об этом написал в комментариях.
Мы пишем конкретные программы для конкретных капча-систем, которые могут распознать картинки именно этой капчи. Она эксплуатирует конкретную уязвимость. И, конечно, не подходит к другим картинкам.
Непосредственно распознавать звуковые капчи я не пробовал, но много работал со звуком, поэтому могу сказать - звуковые капчи по идее тоже просто распознаются. По крайней мере "посчитайте низкие звуки" - это вообще элементарно. Чуть сложнее - произнесенные голосом слова (цифры например) - но тут тоже все сводится к тому, что звук будет формироваться из заранее записанных кусков, а значит его можно обратно на эти куски разобрать.

В любом случае, проблема всех captcha в том, что они синтезируются машиной - а значит могут быть машиной разобраны.
Большинство каптч довольно просты. Достаточно убрать шумы, развернуть символы и скормить скажем gocr-у. Ещё лучше работает, если добавить шаблоны. Если хотя бы 30% удачно распознаётся, это уже выгодно.

З.Ы. Алексей и Ко молодцы, что занимаются этой проблемой.
В этом году предлагал эту тему на phpconf - посчитали неинтересной...
ага. проблемы каптчей не существует.
как в ссср секса не было =)
Нет, ну просто много всяких проблем есть. На все времени не хватит - остается выбирать существенные.
А зря посчитали неинтересной. С удовольствием бы послушал вместо какого-нибудь мемкеша.
А на РИТ не пробовали предложить? И кстати, скоро же будет UA Web 2007 - давайте туда Вас предложим? (я просто имею отношение к организаотрам)
хм. а с кем говорили?
Да с кем-то из оргов, ник phpclub - у Смирнова ж наверное?
да, смирнова. жаль, может ваша разработка капчи и не самая удачная (субъективное мнение - не воспринимайте как наезд, исключительно по читаемости и размер из-за этого картинки должен быть большой), но сама тема создания тяжело-ломаемых очень интересная. спрошу - интересно почему отказали.
а каптчу с Gmail'а сломали?

посмотрел
http://ocr-research.org.ua/list.html
тут жестчайший примитив, это ломает ЛЮБАЯ капта-распознавался в том числе и бесплатная.

А вот на взлом гуглоподобных каптч было бы интересно посмотреть.
Подкиньте ссылку на какую-нибудь бесплатную капча-распознавалку.
Ну и покажите, какие именно капчи из списка она ломает.

С Гуглом все гораздо интереснее. Ее очень сложно ломать. У них очень сильная идея - один из лучших, которые я когда-либо видел.
Если мне не изменяет память, во всяких спамелках типа аллсабмитера есть распознавалки каптчи. Все что на первых 2х страницах ломается этими распознавалками. Вообще, все каптчи, которые строятся на добавлении шумов - есть примитив.

Что касается гугла, да ничего особенного в их алгоритме нет. И есть либы генерящие на ПХП точно такую же каптчу как у гугла, т.е. с нелинейным искажением символов и с их наложением друг на друга.

Я не вижу в чем тут «прорыва», и вообще ничего феноменального в так называемых разработках. То, что вам удается ломать каптчи объясняется их примитивностью и тупизной разработчиков сервисов/скриптов, которые юзают примитивные каптча-генерилки. «New York Times» пишет для «домохозяек», на IT публику такие статьи не прокатывают.
Я, вообще-то, статей не пишу, и нигде своими результатами не кичусь. Я где-то как-то громко о себе заявлял?
Ремарка про статью - камень в огород New York Times, а не в Ваш.
Ну, NYT это тоже не ИТ газета, все правильно - для домохозяек
Кстати, тут есть сравнения алгоритмов построения каптч: http://captcha.ru/articles/visual/
И собственная каптча у Сергея (captcha.ru) не слабая. Осилите?
По сути та же, что и у гугла. Одна из немногих, к которым мы не знаем, как подступиться.
По моему, начать тут надо с "выравнивания", т.е. компенсации волнообразного искажения. Алгоритм искажения довольно простой, а зацепиться можно за то, что почти в каждой captcha-фразе есть буквы с прямыми (и даже вертикальными) линиями - d, b, h и т.п. То есть можно итеративно пробовать "обратные" преобразования, пока не найдем максимум прямых вертикальных линий - а дальше стандартно, разделяем и распознаем.
Нет, самое сложное - разделить буквы.
То есть инвертировать волну у вас получается? Если да, то в чем сложность разделения? Это же будет обычный ровный текст.
Нет, это просто не нужно.
Ну и что что ровный текст. Что дальше?
И несмотря на сложность распознавания, у гугловой капчи отличная читабельность.
Ну, что тут скажешь - гуглу респект и уважуха.
чтото не пойму - что такого особенного в каптче гугла (gmail)?
по-моему все буквы несложно выделить (имея опыт в этом), построить скелет каждой, выровнять и распознать нейронной сетью
Странно, но почему обязательно картинки? элементарная система проверки на способность МЫШЛЕНИЯ простенькими вопросами, типа "какого цвета солнце" и "сколько красных кружёчков на картинке" и риск быть заспамленным значительно уменьшается. нет, ну может быть у меня ещё не было проектов на несколько тысяч хитов в день, но достаточно было разместить такую простенькую системку на нескольких форумах и спамеров как не бывало. конечно, проблема тоже решаемая (всмысле взломать тоже можно), но наверное, проще проверить на способность думать, чем распознавать символы. может быть на рою ссылки по теме, но куда то все потерялись... я думаю, вы поняли, о чём я?
это приравнивается к задаче с ребусами и решается еще проще чем капчи читай тут http://www.habrahabr.ru/blog/spam/16971.html#comment212655
Системы наподобие ALICE как раз имитируют способность мышления - дошли до того, что запоминают важные для контекста данные из разговора. Даже если придумаете вопрос, на который подобные боты не смогут ответить, спамер может запросто составить базу ответов для ваших форумов - на это у него уйдет гораздо меньше времени, чем у вас на написание новых вопросов.
набор вопросов-ответов ограничен. дальше думай сам. короче, это даже легче.
А если набор вопросов не ограничен? Например распознавание образа не картинке, с гугловского поиска, по какому то ключевому слову.
а почему, интересно, "распознавалка" не может взять результаты поиска с гугла?
1. Не факт, что в качестве словаря будет использоваться именно гугл
2. Как она по картинке будет восстанавливать ключевое слово?
количество кружков посчитать проще, чем распознать буквы. Список вопросов взламываетс я за то же время, за которое и создается - вручную. Кроме того - очень плохое юзабилити у таких тестов. Надежности - столько же или меньше, а концепция другая. Как говаривал Стив Круг - Don't make me think.
Всёравно капче быть. Ведь не все купят у Колупаева его анти-капчу, а значит хоть какой-то процент ботов будет отсеян. И потом не стоит забывать о спаммерах-интузиастах, которые, сами, без всякиз распознавательных систем, кропатливо вводят буковки с капчи в своих ЗЛОнравных и ЗЛОнаправленных целях =D
Проблема совсем не в этом. Дело в том, что мы по сути ничего мегаособенного не пишем. При должном усердии это может сделать любой умный программист. Более того - это делается, и мы в этом плане - капля в море. Просто они не делают сайтов и не дают интервью.
Я могу этим и не заниматься - но я не думаю, что это действительно сделает мир лучше. Даже та шумиха, которая поднялась из-за этой статьи - уже подтверждение того, что все не зря. Возможно, кто-то задумается над своей капчей и сделает ее лучше.
WaterCap
Автор утверждает, что у него очень сильная каптча. Весь код занимает 50 строчек. Ваше мнение?
А, пардон, протупил.
Идея интересная. Не самая легкая для распознавания, безусловно.
Правда из-за специфики способа отображения букв не удастся ставить из слишком близко друг к другу (не прочитать), так что можно будет попробовать вычислить положения букв по проекциям.
Не уверен, надо пробовать.
На самом деле легко. Хоть ты и писал внизу, что "накладывание масок это не самая лучшая идея". Но это именно тот случай, когда надо применять маски. Да , кстати, спасибо автору за то что выложил примеры всех букв и цифр. :)
Капча по фото: http://pictcha.net/
Картинки деформируются геометрически и по цвету. Настройки количества вывода, кеш, все дела.
Сто лет назад делал, да руки не дошли проверить. Но теоретическая сложность лома интересует.
Да, похоже на новый вариант от майкрософт. Юзабилити под вопросом.
Строка ввода для тестов. Если её оставлять, наверное, буквы прилеплю к фоткам или ещё как.
Или что-то другое имеется в виду?
Некоторое время делали капчу для проекта, и пришли к выводу, что самые сложные для распознавания капчи, на которой каждая буква разбивается случайным образом на четыре части, затем каждая часть намного сдвигается и поворачивается на несколько градусов. Вся сложность распознавания в том, что нет конкретных шаблонов для букв, и восстановить первоначальный вид очень тяжело, а человеку достаточно просто прочесть.
Распознавать символы сравнивая с шаблонами - не самый лучший вариант. Нейронные сети гораздо эффективнее.
Если удастся выделить отдельные буквы (пусть и порубленные на кусочки) - задача почти решена.
Здесь весь смысл, чтобы сложно было объединить части букв. Программа будет либо распознавать каждую часть отдельно, либо путать части от соседних букв. По крайней мере, такую капчу распознать гораздо сложнее, чем другие варианты.
Нейронной сети, в целом, все равно - цела ли буква. Главное, чтобы она была на входе, и желательно, чтобы ничего кроме нее там не было.
Понять, какая часть от какой буквы будет, конечно, нелегко, однако надо посмотреть на то, как это будет выглядеть - возможно при таком условии и человеку будет слишком сложно прочесть.
В общем, говорить, конечно, интересно, но пока нет картинки - это просто разговоры.
Пример работы капчи, о которой я говорил.
Разбивка на 4 части:
http://st1.risunok.net/12192/1.jpg

Разбивка на 2 части:
http://st1.risunok.net/12191/2.jpg

Профессионалы по этой теме, оцените стойкость моих разработок.
Ну, во-первых, не так уж сложно прочитать, по сравнению с другими нераспознаваемыми капчами, а во-вторых, это достаточно “тяжелый” режим, можно поставить меньше разнос.
Чтобы не быть субъективным - давайте спросим еще кого-то, что же написано на этих картинках, и насколько легко это выяснить.
Давайте спросим, конечно.
Здесь тоже не понятно, что написано?
http://st1.risunok.net/12197/3.jpg
Ну так это же уже совсем другая картинка. Еще малость - и получим гугловскую капчу.
Если исключить маленькие повороты сегментов букв, то твоя капча мало чем отличаеться от overture.
Вот пример картинки
Кстати, а overture мы распознали на 100%.
Теперь же рассматривая легкие отклонения частей букв, с уверенностью могу заявить, что процент распознавания упадет где то до 60-80, а читабельность до 0.
QWRSA
EONXG

очень даже легко, намного проще чем некторые попадавшиеся в нете капчи :)
UFO landed and left these words here
Концептуально капча - зло. О слепых подумали? 99% применяющих капчу владельцев ресурсов не обеспечивают альтернативного метода распознавания (звукового). Именно такой аргумент приводят многие авторы антикапчевых тулов, и я полностью их поддерживаю. Хватит дискриминировать незрячих (в том числе и ботов). Подумать головой надо: чего мы хотим добиться? Чтобы не спамили? То есть не рассылали массовый и нерелевантный контент? Ну так боритесь с массовостью (ограничение на частоту/объем) и нерелевантностью (ограничение на несловарные/иностранные слова, ссылки, черный список запрещенных слов и т.д.). Статистический анализ содержимого (добавить на 95% похожий текст не получится), и другие интеллектуальные, а не механические меры. Все равно когда-нибудь по части распознавания изображений программный интеллект догонит человеческий. А как защищаться от армии рабов, добросовестно распознающих капчи и постящих спам по центу за пост? Вот-вот.
я так понял, что основная проблема - это выделить кусок с буквой на капче. для этого добавляют шум и тому подобное. а если сделать такую капчу: буквы наезжают друг на друга, но при этом читабельность сохраняется. это сильно усложнит задачу?

PS. на сколько сильная яндексовская капча?
ИМХО, если буквы одноцветные, то сильно наехать не получится, тогда можно с помощью морфологии расцепить. Ну а если одноцветные, то, как писалось выше, это совсем халява.
"Ну а если одноцветные" имелось ввиду, конечно же, "Ну а если разноцветные"
Если сделать как Вы говорите - получится гугловая.

Сильная у Яндекса, сильная.
а сколько будет стоит распознование капчи гугла?
Самая классная каптча — это hotcaptcha.com
Тоже самое, что вопрос-ответ, набрал базу красивые-некрасивые и все...
А как вам такая картинка?
Легко ли её распознать?
простите. каюсь. ссылка вот: http://w3box.ru/code1.php
Ай да красавец, ай да сукин сын.
Мне пришлось с ним работать в одной компании.
Потом он подался в Киев а я остался в Харькове.
Молодец Алексей, так держать.
Only those users with full accounts are able to leave comments. Log in, please.