tyderh Nov 2 2012 at 10:27

«Оцифровываем» каптчу единого реестра сайтов, защищающего людей от информации

3 min

24K

Information Security *

Tutorial

+53

Comments 48

nick4fake Nov 2 2012 at 10:35

Я не могу понять, зачем столько усилий? Не рекапче сидят тыщи китайцев, процент почти 100.

vyacheslav_ka Nov 2 2012 at 10:37

Не спортивно же :)

AlexP11223 Nov 2 2012 at 11:14

Далеко не 100 и медленно :)

nick4fake Nov 2 2012 at 11:22

На моих выборках они обычно 99 процентов отгадывают (хотя да, тупят). Как плюс — не нужно под каждую капчу писать дешифратор.

rushter Nov 3 2012 at 06:53

На рекапче никто не сидит, сидят на антигейтах и подобных сайтах :)

nick4fake Nov 3 2012 at 07:46

Я об антигейте (конечно не рекапча). :)

Error_403_Forbidden Nov 12 2012 at 19:40

рекапча? Может быть Pixodrom ( pixodrom.com )?

6opoDuJIo Nov 2 2012 at 10:36

Также можно скриптом завалить сайт заявками используя гугл в качестве генератора случайных урлов.
UPD. мб сделать? кто что думает?

sagus Nov 2 2012 at 11:02

Могут по ip заблокировать, надо над прокси подумать еще. Ну и над самими заявками, чтобы сайты побольше были да загружались подольше. Кстати, они же вручную проверяют… Им же случайно могут попасться порноссылки и даже ссылки на вредоносные сайты. Как они с этим борются интересно)

6opoDuJIo Nov 2 2012 at 11:14

Можно использовать Tor. Да и листы паблик-прокси достать не такая уж и проблема.

6opoDuJIo Nov 2 2012 at 11:27

И как альтернативный вариант — вебсервер с js-кой, что будет выполнять эти действия и опубликовать ссылку. Кто-то да воспользуется. В реестре не обрадуются.

sagus Nov 2 2012 at 11:34

Я бы назвал это спам-оберткой вокруг zapret-info.gov.ru/ ))

amarao Nov 2 2012 at 11:02

Генератор не интересно. Интересно отправлять ссылки на реальные страницы. В этом случае не будет возможности различить стукачество от шумоизоляции, т.е. кому-то там придётся идти и читать всё, что прислали. А это куда эффективнее, чем засирание базы, ибо в условиях перегрузки люди не прекращают обработку новых запросов, а начинают халтурить с существующими.

В принципе, отправка результатов поиска гугла по inurl:a, inurl:b и т.д. — неплохая стратегия.

6opoDuJIo Nov 2 2012 at 11:08

Вообще-то я и имел ввиду отправку реальных урлов полученных через поиск гугла. По запросу «сайт» например.
p.s. Существуют сервисы типа этого (http://www.randominio.com/ru) что по клику перенаправляют на случайную страницу. Это ещё круче и проще, чем поиск гугла.

UFO landed and left these words here

6opoDuJIo Nov 2 2012 at 18:25

Смс-подтверждение можно купить на стороне. Где-то в комментах на хабре была ссылочка :)
Плюс ко всему прочему, остро встаёт вопрос передачи данных. Если передавать открыто… ну, сами понимаете. Если передавать хеш, то возможны коллизии, и может получиться неразбериха. Палка о двух концах в общем.

seriyPS Nov 2 2012 at 17:19

Можно по этим спискам пройтись просто =)
panel.reghouse.ru/ru_domains.gz
panel.reghouse.ru/su_domains.gz

6opoDuJIo Nov 3 2012 at 18:42

Ну, тогда придётся в любом случае привлекать поиск, чтобы иметь не только главные странички, но и случайные странички с этого домена (например, случайное сообщение на форуме). Используя только поиск гугла, можно будет иметь в спам-списке ещё и сайты с буржундии)

seriyPS Nov 3 2012 at 20:53

чтобы получить случайную страничку с домена, в 100 раз проще загружать индексную страничку с самого домена и выбирать рандомную ссылку с неё, чем бороться с капчей и баном гугла.

6opoDuJIo Nov 3 2012 at 22:34

Хм. И то правда — про бан гугла я благополучно забыл -_\\

KORISS Nov 2 2012 at 17:49

Как-то так и закроют хабр, ведь это подстрекательство на кибер-терроризм.

intermed Nov 3 2012 at 15:48

Вкину свои 5 копеек. Встала тут недавно задача голосовалку обмануть. Правда она была без капчи зато позволяла голосануть 1 раз с IP адреса. В общем вот вам однострочник на шеле, может сгодится кому:


while read line;
  do echo $line;
  curl http://voteurl.ru/vote/path/ -d "postKey1=postValue1&postKey2=postValue2" -x $line -o ./output.txt ;
done < /home/name/proxy-list.txt

Прокси серверы брал отсюда

6opoDuJIo Nov 3 2012 at 19:01

Круто, спасибо. Кинул в избранное, буду пользовать в будущем).

megaweber Nov 2 2012 at 11:27

Ну все теперь…

SADKO Nov 2 2012 at 11:40

UnixWay!

sagus Nov 2 2012 at 11:50

И в главном скрипте вторую строку лучше вот такой сделать
c=$(curl -c cook.txt http://zapret-info.gov.ru/ | iconv -f cp1251 | grep capcha | sed -n 's/.*src="$.*$".*/\1/p')

poterin Nov 2 2012 at 12:12

В конце концов они замучаются и сделают белый список вместо черного. Вот тогда реально весело будет.

sankir Nov 2 2012 at 12:40

Я удивлен, если честно, что они с этого не начали.

sam002 Nov 2 2012 at 16:52

А что с презумпцией невиновности тогда делать? По такому принципу можно всех садить в тюрьму, а за хорошее поведение выпускать!
Они, конечно могут, я, лично не особо удивлюсь...

mariofag Nov 2 2012 at 19:46

Тише, sam002, тише.

6opoDuJIo Nov 2 2012 at 18:32

Возможно что суть в том, что для того, чтобы составить тот самый белый список, нужно время. И немало времени. Результат же нужен уже сейчас, посему, самый простой способ прекращения доступа к «неподходящим» ресурсам — тупо их блочить. А если не подготавливать такой список заранее то это будет сродни банальному отрубанию кабеля. Если приобщить народ к таким действиям (как сейчас) в виде заявок и прочего, то в первые часы (если не минуты) ресурс просто ляжет. Люди будут массово слать просьбы разлочить их любимый форум ветеринаров, вики скейтеров, ещё-что-нибудь и т.д. и т.п. Как по мне, так геморрою будет по самое небалуйся. Посему, проще сделать то, что сделано.

mrThe Nov 2 2012 at 13:40

Можно повысить кдп до 99%, так как по одному урлу(типа zapret-info.gov.ru/services/capcha/?i=123) отдаются одни и те же цифры(так как, судя по всему, сессия генерируется на странице, а не из картинки). Несколько раз запрашиваем, распознаём, выбираем по большинству.

tyderh Nov 2 2012 at 13:59

Я об этом написал. 99% не быть, т.к. в большем количестве случаев оно путает 9 и 3, 1 и 7, повторения при таком методе ухудшают результаты

PEgorov Nov 2 2012 at 14:12

Интересно, а есть зависимость между текстом капчи и параметром i в урле?

tyderh Nov 2 2012 at 14:14

i строго зависит от phpssid. Нельзя получить каптчу без phpssid или неправильным i. После получения каптчи i аннулируется

PEgorov Nov 3 2012 at 18:11

Что вы имеете в виду под «получение капчи»? Отправка серверу ответа на капчу? Ибо так-то ничего не аннулируется. В течение весьма долгого времени можно невозбранно запрашивать капчу снова и снова, и она будет возвращаться с одинаковым текстом внутри, и размещен он при этом будет по-разному, как и писалось выше.

tyderh Nov 3 2012 at 18:12

После отправки, да

nolka Nov 2 2012 at 14:22

Конечно есть! По значению параметра i они производят сравнение того, какой код ввел пользователь, и какое значение кода на самом деле. в параметре i просто идентификатор кода хранится(не сам код!)

ssneg Nov 2 2012 at 15:44

> Минимальное КПД
КПД — это коэффициент, поэтому «минимальный», «максимальный».

tyderh Nov 2 2012 at 15:46

Спасибо, но на будущее: о таком пишут в личку

ssneg Nov 2 2012 at 15:47

Это не опечатка, а ошибка. Поэтому вполне ещё кому-нибудь пригодится.

bolk Nov 2 2012 at 17:53

 res=$(cat result.txt | sed -e 's/[^0-9]//g')

Useless cat. Почему сразу-то не сделать так:

 res=$(sed -e 's/[^0-9]//g' result.txt)

tyderh Nov 2 2012 at 17:54

Как думаю, так и пишу, поэтому такая фигня и получается :)

Lunatik Nov 2 2012 at 19:22

Попробовал увеличить картинку при перед прогоном через Tesseract.

Случаев, когда совсем распознать не получилось становится сильно меньше, но общий результат от этого не меняется. И работать начинает заметно дольше.

Жаль.

Impuls Nov 2 2012 at 19:35

Вот и начались первые попытки взлома данного занимательного ресурса. Думаю это далеко не последний случай. Ждемс. Ждемс.

helarqjsc Nov 3 2012 at 09:26

Или просто научить Tesseract шрифту каптчи. Сам шрифт похож на Arial, но тессеракт постоянно путает 3 и 8, 1 и 7.

Может быть, стоило решить эту проблему, прежде чем публиковать статью? Все же явно видно, что 3\8 и 1\7 очень сильно отличаются:

Скрытый текст

tyderh Nov 3 2012 at 10:56

Тессеракту таки нельзя указать шрифт, да и повороты его путают. Да, можно специально обучить, но это лень :)

mc_murphy Nov 4 2012 at 06:32

Статья про обработку изображений без картинок — не лучшая идея.