Comments / Profile of Pastafarianist / Habr

@Pastafarianist

Пользователь

Profile Publications 4Comments 563Bookmarks 246

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 12:34

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 12:04

Первый раз слышу об этом конкурсе.

Думаю, нет. До дедлайна два месяца, а дел по горло, тем более что придётся разбираться в новой для себя теме. Не успею.

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 12:02

Да, я это раньше читал. Попутно подумал, что новую «святую» капчу я смогу распознать где-то на уровне 30-40%, ибо свято верю в мощь нейросетей, а препроцесс и сегментация там весьма тривиальны. Впрочем, печально, конечно, что администрация позволяет себе такое.

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 11:56

Dell Inspiron Mini 1018. Это, конечно, нетбук, и стоит он соответственно, что не мешает мне в полной мере наслаждаться победой :)

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 11:53

Реализация первой значительно осложняется тем печальным фактом, что у меня, к сожалению, нет доступа к внутренностям Windows Update. Даже если бы я сделал аналогичный сервис, кто даст гарантию, что меня послушает M$?

Вторую вы описали весьма расплывчато (по крайней мере, для меня), хотя, конечно, звучит захватывающе. Но вот первая же мысль в связи с реализацией — нужно собирать статистику по интернету -> нужно аккуратно парсить содержимое статей по этой теме -> нужно понимать это содержимое -> нужно пройти тест Тьюринга :(

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 11:47

Вы не поверите…

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 02:45

Если для Вас лурк — не новость, Вы должны быть прекрасно знакомы с тамошним стилем статей, где за невинными на первый взгляд заголовками ссылок часто скрывается неожиданное содержание. Причём чтение статей подразумевает, что вы наводите мышку на все ссылки подряд, но переходите лишь по единицам из них. Здесь я подразумевал то же самое — после первой же ссылки на лурк читатель должен был понять, что его ждёт в дальнейшем, и просто не переходить по ссылкам на вышеупомянутый сайт.

Режим Капитана отключён.

-2

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 02:30

Возможно, дело в том, что защита типа капчи слишком хорошо изучена, и для того, чтобы её пробить, используют ~~негров~~ бедных китайских студентов? В интернете же полно сайтов, предлагающих «вводить символы с картинок 1$/1000 шт.». То есть проблема не в устойчивости капч к распознаванию, а в людях, соглашающихся выполнять настолько бесполезную работу.

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 02:25

Вот что обидно — в конце статьи содержится Вопрос Жизни, Вселенной и проч., а ни один из комментариев даже не затронул эту тему. Неужели никто ничего не подскажет? :(

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 02:15

Пробовали reCAPTCHA? Насколько я знаю, одна из самых сложных на текущий момент.

Насчёт олбанского — уверен, хороший парсер и словарь сломят и такую защиту :)

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 02:09

Ну давайте разбираться, где же я отвлекаю этого бедного читателя.

Всего в тексте 5 ссылок на лурк. Из них три во вступлении, одна в заключении и одна — в самом начале текста про первую капчу. Таким образом, получается, что от технической части (в которой находятся все Глубокие Идеи (тм)) я читателя не отвлекаю вообще, и в то же время менее значимые части разбавляются этими самыми ссылками. Видите ли, я старался писать так, чтобы это читать было интересно.

Я ответил на Ваш вопрос?

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 01:59

Если не ошибаюсь, что-то подобное реализовано у Webmoney.

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 01:57

Сначала прочитал эпитет насчёт нейросетей как «сверхточные», много думал…

Да, я хотел их использовать. Но, к сожалению, FANN их не поддерживает, адекватных альтернатив (в первую очередь, по скорости) я не нашёл, а писать что-то своё — слишком сложно и долго.

P.S.: если кто-то заинтересуется темой, то в интернете проще найти информацию по запросу «convolutional neural networks».

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 01:51

Возникает естественная проблема — а где брать образцы для обучения? Там алфавит на 22 символа, если хотим распознавать пары, понадобится, по крайней мере, 484 сегмента по 2 символа в каждом — в идеальном случае это 194 картинки, но идеальных случае в природе не бывает. Покажите мне человека, который добровольно согласится распознавать такое количество капч (китайских студентов и декапчер.ком не предлагать!). Я руками переименовывал все эти изображения, и, честно говоря, удовольствия мало. Это первое.

Второе — что-то я сомневаюсь, что при таком количестве различных образцов сеть сможет сделать вменяемое обобщение. Однако, проверке это утверждение не поддаётся из-за п.1.

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 01:40

Нормально ли писать, что лицензия распространяется на «текст, а также всю информацию, в нём содержащуюся»? А также изменять условия лицензирования после публикации статьи? :)

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 01:37

Которые, однако, вряд ли дадут приемлемый результат в условиях большого алфавита (заметьте, «только цифры» — один раз из четырёх) и слишком маленького размера изображений.

Если интересует — попробуйте применить этот метод и сравните его эффективность с нейросетями. Зачем начинать холивары на пустом месте?

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 01:32

Так и знал, что кому-то не понравится :(

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 26 2011 at 01:30

Ага, Ucoz к ней неплохо приблизился.

Look

Распознавание некоторых современных CAPTCHA

Pastafarianist Mar 25 2011 at 23:09

Это вы пересказываете собственный опыт или предлагаете правки к тексту статьи?