Evgenika30 мая 2013 в 11:32

Ты кто такой? Бот? Давай, до свидания!

3 мин

8.7K

Информационная безопасность *

Из песочницы

-7

Комментарии 64

Larrikin 30 мая 2013 в 11:39

Не уловил проблем для ботов распознать такую капчу. Почему им это должно быть трудно?

Evgenika 30 мая 2013 в 11:47

Все мои попытки распознать существующими OCR были неудачными

AlexNomad 30 мая 2013 в 11:48

просто сначала надо к картинке применить несколько фильтров.

Evgenika 30 мая 2013 в 12:14

Да вы попробуйте, примените

Error_403_Forbidden 30 мая 2013 в 12:41

А вы вообще пробовали сами? Например, Erosion, Dilation?

Evgenika 30 мая 2013 в 12:57

Пробовала, но конечно не все, и не во всех сочетаниях.
Приведите пример вашего результата обработки. Не «Привет» (он и так, как выяснилось, распознается), а «Параллелограмм»

Error_403_Forbidden 30 мая 2013 в 13:30

загружал анимированную GIF-ку:

Evgenika 30 мая 2013 в 13:35

Все понятно. Вопрос снят, тему закрываю. Спасибо за pixodrom.

evolver 30 мая 2013 в 15:16

Кстати, в данном случае именно бот успешно пройдёт капчу, в отличие от человека, который впишет «Параллелограмм».

НЛО прилетело и опубликовало эту надпись здесь

Evgenika 4 июн 2013 в 12:35

Всплыли новые факты, тему открываю вновь
habrahabr.ru/post/182106/

Error_403_Forbidden 4 июн 2013 в 12:53

Ого, вот это расследование :)
Интересно…

Evgenika 5 июн 2013 в 09:56

Оказалось, что это было пустое расследование. Все и так знали, что там люди отгадывают.
Да и цитата с главной

According to using human power

как-бы намекает.
Вот только адрес для связи я у них так и не нашла. Может просто плохо искала.

Error_403_Forbidden 5 июн 2013 в 11:36

На главной
«For developers
Our service provides unique conditions for the developers. Link your programs to the system to control all copies of your software. For details please contact us: support@pixodrom.com»

Evgenika 5 июн 2013 в 12:26

Слона-то я и не приметила. Спасибо.

Error_403_Forbidden 8 июн 2013 в 17:41

Что вам ответили?

bask 30 мая 2013 в 12:37

Каким OCR-системами вы пользовались, если не секрет?
Даже бесплатный тест на pixodrom.com проходит на ура

Evgenika 30 мая 2013 в 12:49

Да, действительно, разреженный «Привет» распознался.
Слитный «Параллелограмм» не распознается

Error_403_Forbidden 30 мая 2013 в 12:57

Я тоже попробовал «Параллелограмм» распознать. Написало ошибку, что картинка по объёму большая.
Так что здесь дело не в слитности, а в техническом намеренном ограничении системы. Которое, кстати, при желании снимается.

Evgenika 30 мая 2013 в 12:58

Большая? Я пробовала снимать скрины и постила png-шками. Они у меня по 4K

Error_403_Forbidden 30 мая 2013 в 13:10

Ээээ… А зачем постить png-шки, если можно сразу GIF-ку отправить на распознавание?

Evgenika 30 мая 2013 в 13:13

Во-первых не думала, что можно и гифки, а во-вторых подбирала удачные кадры, где буквы меньше сливаются

naprienko 30 мая 2013 в 11:40

Разве нельзя взять первый кадр gif-изображения и просто распознать текст обычными способами?
Ну или поменять формат на другой, насколько я понимаю, анимация исчезнет и можно перейти к «обычным» методам.
Скептически отношусь к данному способу.

UPD: И если такая капча занимается много ресурсов, будет возможна DDOS-атака, разве нет?

Evgenika 30 мая 2013 в 11:48

Ее сила не в том, что она в формате gif, а в том, что символ нарисован точками, как и фон
Про ддос — вы абсолютно правы

НЛО прилетело и опубликовало эту надпись здесь

Evgenika 30 мая 2013 в 12:07

А вы попробуйте

НЛО прилетело и опубликовало эту надпись здесь

Evgenika 30 мая 2013 в 12:18

Дело в том, что на фоне не всегда одиночные точки, а бывают и по 3 и по 4, 5. И наоборот, узкие линии символов часто разъедаются.

Error_403_Forbidden 30 мая 2013 в 12:45

Вы вообще знакомы с обработкой изображений? Ну хоть совсем чуть-чуть?
То, что вы описываете — это самая распространённая задача по обработке изображений.
И решений этого вопроса — тьма. Даже искать особо не надо.
Весь коммерческий OCR-софт живёт за счёт этих элементарных алгоритмов, не говоря уже про распознавание автомобильных номеров и прочие прикладные вещи.

Evgenika 30 мая 2013 в 12:15

Очень на это надеюсь

ploop 30 мая 2013 в 12:17

Чего только не узнаешь из комментов! Спасибо за ссылку :)

AlexNomad 30 мая 2013 в 11:46

"Сама по себе идея — ничего не стоит. Стоимость имеет ее практическое осуществление" ©
С точки зрения распознавания ваша капча достаточно легко распознается.
Для этого надо все кадры объединить вместе, отбросить редкие точки, после чего сделать заливку плотной группы точек.
В итоге получим достаточно хороший текст, который мне кажется будет хорошо распознаваться.

Современные капчи используют другой прием — только человек способен выделить текст из кучи линий и другого мусора, даже если они сделаны тем же цветом и яркостью.

Т.е. капча использует интеллектуальное преобразование, а не механическое.
Но идея с движением достаточно интересна.

Evgenika 30 мая 2013 в 11:52

Если совместить все кадры — получатся пятна, т.к. каждый символ на каждом кадре в [немного] различной позиции.
Эта капча как раз и основана на

только человек способен выделить текст из кучи линий и другого мусора

AlexNomad 30 мая 2013 в 11:56

вы правы, достаточно взять только один кадр.

shambho 30 мая 2013 в 11:49

Надо распределить текст капчи по частям на несколько кадров gif-а.

AlexNomad 30 мая 2013 в 11:50

но ведь потом их можно слить вместе и получть итоговую картинку. (

shambho 30 мая 2013 в 13:31

Ну идею можно расширить. Например, если «куски» при разбросе по фреймам будут прыгать — слив не поможет.

НЛО прилетело и опубликовало эту надпись здесь

Fedcomp 30 мая 2013 в 11:52

идея с движением не нова, где то на хабре уже приводили большое количество каптч.

Evgenika 30 мая 2013 в 11:53

Просмотрела все. Из похожих только www.nucaptcha.com/

Error_403_Forbidden 30 мая 2013 в 13:12

В далёком 2005-м году движущаяся капча была у e-Gold
Потом ещё у кого-то. Но она не приживалась и со временем все ставили либо статичную, либо вообще от неё отказывались

Fedcomp 31 мая 2013 в 04:08

Ну статью со списком каптч я так и не нашел, но как раз про нукапчу на хабре писали habrahabr.ru/post/98162/

Evgenika 31 мая 2013 в 08:03

Я воспользовалась поиском

JustStas 30 мая 2013 в 11:59

Вот довольно-таки красиво выглядящая каптча:
www.hellocaptcha.com/

Хотя, там просто надо повернуть буквы, разить и скормить OCR.

jrip 30 мая 2013 в 12:00

>>Вопросы и проблемы
На практике обычно в большинстве случаев так:
В начале берут что-то стандартное, рекапчу, выдернутый откуда-то кусок, все что под руку подвернется.
Если проект растет и если возникает проблема ботов — пишут что-то своё нестандартное, но несложное, чего нет в стандартных базах ботов.
Если проект очень-очень вырос и ботов пишут уже конкретно под него — тогда уже начинают задумываться над капчей и делать что-то совсем нестандартное.

К вопросу написания сервиса капчи — пишите, почему нет, только как обретете известность ботов будут писать уже конкретно под вашу капчу и она для большинства потеряет смысл. Сломают и заботят все что угодно — если будет экономическая целесообразность.

Evgenika 30 мая 2013 в 12:23

Не буду писать сервис, потому что пока не вижу путей монетизации.

Zibx 30 мая 2013 в 12:57

Брать хэш от полученной картинки и сохранять в базу, а потом продавать ботам ответ за 10 центов!

Evgenika 30 мая 2013 в 13:00

Хеш? Картинка всегда разная, а значит и хеш разный. Или я не поняла мысли?

Zibx 30 мая 2013 в 14:08

Сервис генерирует картинку и должен отдать юзеру слово, которое на ней, что бы тот смог сделать проверку того что ввёл пользователь. Одной картинке можно считать что соответствует один хеш от файла (если забить на коллизии). Бот берёт хэш от картинки, приходит к сервису и говорит ему: «Вот тут на одном сервисе заюзана твоя капча, давай ты мне скажешь ответ, а я тебе дам 10 центов».
Но это больше была шутка, подобная той, что вирусы разрабатывают производители антивирусов.

toptalo 30 мая 2013 в 13:55

а если разбить картинку на несколько слоев с разными видимыми частями букв и заанимировать?

Человек-то сможет такое прочитать?

Error_403_Forbidden 30 мая 2013 в 13:58

Тот, кто поставит такую капчу себе на сайт, потеряет 90% зашедших посетителей.
И они больше сюда не вернутся. Не надо так рисковать, боты того не стоят.

Evgenika 30 мая 2013 в 14:01

Как раз такие слои можно слить в один и распознать

atrydg 30 мая 2013 в 17:29

У человека есть сильная сторона — ассоциативное мышление, что одновременно является слабой стороной любого бота. Почему нет (не встречал) капч на этом принципе? Например, фотка известного человека (Пушкин, Наполеон и т.д.) с требованием ввести фамилию. Добавляя шум к фотке, можно гарантировать уникальность изображения.

Mercury13 30 мая 2013 в 18:06

Я долгое время думал, что Марлон Брандо — это она (вероятно, по аналогии с Мэрилин Монро и Брижит Бардо). Известных ВСЕМ людей кот наплакал: старшее поколение не знает рэпера, не смотрящие телевизор не знают звезду, и т.д.

atrydg 31 мая 2013 в 16:45

Но ведь и не каждую капчу вы угадываете, не так ли?

denis15 2 июн 2013 в 20:23

тут есть два выхода:

1. Возможность пропускать капчу, если персонаж тебе неизвестен
2. Формировать базы картинок в зависимости от тематики сайтов. Например, на IT-сообществах типа Хабра показывать Джобса и Гейтса, на музыкальных — музыкантов, ну и общая база с включением известных политиков, мировых звёзд и культовых личностей.

Это куда лучше чем та же самая капча, которая находится тут, на хабре, ввожу её всегда не с первого раза.

Но есть еще другой способ защититься от спама и обойтись вообще без капчи, он описан здесь, не знаю, почему он до сих пор не так популярен.

powder96 31 мая 2013 в 00:12

Подобные задания может создавать (собирать фотографии и подписывать фамилии) только человек, а значит их будет очень ограниченное количество. Это позволит злоумышленнику сделать такую же базу фотографий и без каких-либо проблем выдавать по ней ответы.

atrydg 31 мая 2013 в 16:56

Если бы я имел пример, выдерживающий такую критику, давно уже написал бы статью :)

powder96 30 мая 2013 в 20:03

1. Благодаря использованию настоящих слов, боту не придется очень точно распознавать символы — можно сделать пару-тройку ошибок и все равно вытащить правильный ответ из словаря.
2. Наличие нескольких кадров позволяет провести распознавание несколько раз (дла каждого кадра) и выбрать наиболее часто встречающийся.
3. Ресурсоемкость генерации и размер картинки делают из капчи идеальную цель для DDoS атаки.
4. Капча сама по себе не очень надежная — применив фильры, можно получить хорошую, незашумленную, картинку для нейросети.

imbeat 31 мая 2013 в 04:46

Автор, картинки не отображаются. Перезалейте изображение на habrastorage.

Error_403_Forbidden 4 июн 2013 в 23:14

Кстати, а что означает иероглиф 示设备噐件?

ploop 5 июн 2013 в 04:38

translate.google.ru/

Evgenika 5 июн 2013 в 09:54

Уже не помню, выдернула рандомом из китайской википедии.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий