Pull to refresh
98
0

Пользователь

Send message
Первый раз слышу об этом конкурсе.

Думаю, нет. До дедлайна два месяца, а дел по горло, тем более что придётся разбираться в новой для себя теме. Не успею.
Да, я это раньше читал. Попутно подумал, что новую «святую» капчу я смогу распознать где-то на уровне 30-40%, ибо свято верю в мощь нейросетей, а препроцесс и сегментация там весьма тривиальны. Впрочем, печально, конечно, что администрация позволяет себе такое.
Dell Inspiron Mini 1018. Это, конечно, нетбук, и стоит он соответственно, что не мешает мне в полной мере наслаждаться победой :)
Реализация первой значительно осложняется тем печальным фактом, что у меня, к сожалению, нет доступа к внутренностям Windows Update. Даже если бы я сделал аналогичный сервис, кто даст гарантию, что меня послушает M$?

Вторую вы описали весьма расплывчато (по крайней мере, для меня), хотя, конечно, звучит захватывающе. Но вот первая же мысль в связи с реализацией — нужно собирать статистику по интернету -> нужно аккуратно парсить содержимое статей по этой теме -> нужно понимать это содержимое -> нужно пройти тест Тьюринга :(
Если для Вас лурк — не новость, Вы должны быть прекрасно знакомы с тамошним стилем статей, где за невинными на первый взгляд заголовками ссылок часто скрывается неожиданное содержание. Причём чтение статей подразумевает, что вы наводите мышку на все ссылки подряд, но переходите лишь по единицам из них. Здесь я подразумевал то же самое — после первой же ссылки на лурк читатель должен был понять, что его ждёт в дальнейшем, и просто не переходить по ссылкам на вышеупомянутый сайт.

Режим Капитана отключён.
Возможно, дело в том, что защита типа капчи слишком хорошо изучена, и для того, чтобы её пробить, используют негров бедных китайских студентов? В интернете же полно сайтов, предлагающих «вводить символы с картинок 1$/1000 шт.». То есть проблема не в устойчивости капч к распознаванию, а в людях, соглашающихся выполнять настолько бесполезную работу.
Вот что обидно — в конце статьи содержится Вопрос Жизни, Вселенной и проч., а ни один из комментариев даже не затронул эту тему. Неужели никто ничего не подскажет? :(
Пробовали reCAPTCHA? Насколько я знаю, одна из самых сложных на текущий момент.

Насчёт олбанского — уверен, хороший парсер и словарь сломят и такую защиту :)
Ну давайте разбираться, где же я отвлекаю этого бедного читателя.

Всего в тексте 5 ссылок на лурк. Из них три во вступлении, одна в заключении и одна — в самом начале текста про первую капчу. Таким образом, получается, что от технической части (в которой находятся все Глубокие Идеи (тм)) я читателя не отвлекаю вообще, и в то же время менее значимые части разбавляются этими самыми ссылками. Видите ли, я старался писать так, чтобы это читать было интересно.

Я ответил на Ваш вопрос?
Если не ошибаюсь, что-то подобное реализовано у Webmoney.
Сначала прочитал эпитет насчёт нейросетей как «сверхточные», много думал…

Да, я хотел их использовать. Но, к сожалению, FANN их не поддерживает, адекватных альтернатив (в первую очередь, по скорости) я не нашёл, а писать что-то своё — слишком сложно и долго.

P.S.: если кто-то заинтересуется темой, то в интернете проще найти информацию по запросу «convolutional neural networks».
Возникает естественная проблема — а где брать образцы для обучения? Там алфавит на 22 символа, если хотим распознавать пары, понадобится, по крайней мере, 484 сегмента по 2 символа в каждом — в идеальном случае это 194 картинки, но идеальных случае в природе не бывает. Покажите мне человека, который добровольно согласится распознавать такое количество капч (китайских студентов и декапчер.ком не предлагать!). Я руками переименовывал все эти изображения, и, честно говоря, удовольствия мало. Это первое.

Второе — что-то я сомневаюсь, что при таком количестве различных образцов сеть сможет сделать вменяемое обобщение. Однако, проверке это утверждение не поддаётся из-за п.1.
Нормально ли писать, что лицензия распространяется на «текст, а также всю информацию, в нём содержащуюся»? А также изменять условия лицензирования после публикации статьи? :)
Которые, однако, вряд ли дадут приемлемый результат в условиях большого алфавита (заметьте, «только цифры» — один раз из четырёх) и слишком маленького размера изображений.

Если интересует — попробуйте применить этот метод и сравните его эффективность с нейросетями. Зачем начинать холивары на пустом месте?
Так и знал, что кому-то не понравится :(
Ага, Ucoz к ней неплохо приблизился.
Это вы пересказываете собственный опыт или предлагаете правки к тексту статьи?
Спамом я называю одно из потенциально возможных применений моей программы.

Information

Rating
Does not participate
Works in
Date of birth
Registered
Activity