Pull to refresh

Comments 129

Классно! У нас в соседнем институте похожей темой занимаются=) А ведь интересно, что на последней картинке — самые простые капчи для человека, оказались «самыми сложными» для системы
У меня точность распознавания и того меньше…
РеКапча — зло.
Вроде я и человек, но только с 5-7 попытки угадываю. Или это уже профессиональная деформация?
Обращение к Тематическим Медиа, замените капчу на входе на что-то попроще для человека, пожалуйста.
В РеКапче не обязательно вводить оба слова правильно ;)
Хотя, обычно то, которое труднее и надо вводить…
> Хотя, обычно то, которое труднее и надо вводить…
Можно пруф плз.
Пруф найти не смог, если в двух словах:
Одно из 2х слов написано роботом, а второе — неопознанное слово из реального мира: оцифровок книг, фоток, панорам. Т.е. его разгадывать не обязательно, ибо робот не знает что это за слово.
Это-то я знаю, вопрос почему именно то, которое труднее, и надо вводить? Я думаю, проверяется то слово, которое с наибольшей точностью считается уже распознанным. В общем, имею в виду, что еще не распознанное слово может быть труднее распознаваемым.
Генератор вносит предсказуемый и гарантированный уровень искажений, а слово из книги или номер дома чаще всего оказываются довольно простой задачей.
Вообще, по сути Рекапча работает во благо — она помогает распознавать то, что не распознали OCR-системы при распознавании книг или участков фотографий.
А с помощью такого софта теперь можно забить болт на пиксодромы, антигейты и прочие антикапчи.
На основе чего рекапча выносит вердикт если не сравнивает с распознанным эталоном?
Одно из двух слов сравнивается с эталоном.
Второе же распознается, по принципу «сколько человек так написали — это оно и есть».
Вот интересно, а показывается одна и та же капча (распознавание которой не известно) разным людям. Анализируется ли результат, чтобы уменьшить количество ошибок и обходов системы?
Да. Принципы работы у них на сайте вроде расписаны были.
Осталось только уточнить, на чье благо она работает. В последнее время заставляет распознавать в основном номера домов на улицах. Меня, во всяком случае.
ReCaptcha давно купил Google и теперь туда примешиваются картинки с Google Street View.
Так радуйтесь, она номера улиц даёт тем, кого считает благонадёжным пользователем, чтобы им легче было.
Действительно, логинюсь на сайт раз в месяц, вздрагиваю от одной мысли «вводить капчу».
Можно же логиниться через сторонние сервисы — и никакой капчи вводить не надо.
UFO just landed and posted this here
Вам хорошо, а я свой предыдущий пароль постоянно забывал
На хабре была нормальная читабельная капча, но после статьи «распознаём капчу на примере хабра» оперативно заменили на нынешнюю.
Где-то проскакивала информация, что если с IP (или диапазона IP) капча регулярно вводится с ошибками, то предполагается, что идёт подбор и капча усложняется.
Так что если у вас динамический IP, то многое зависит от того, кто им пользовался раньше.
Мне, например, сейчас хабр такую предложил:
Лично меня раздражает, когда мое личное время и нервы используют для «благих целей». Всегда, когда вижу капчу с номером дома, специально ввожу номер неправильно. Если угадать второе слово, все равно пускает :)
Желаю вам потратить кучу личного времени на поиск дома, который на карте отмечен с ошибкой
Не думаю, что мое «хулиганство» что-то изменит, всегда же остаются пользователи, с радостью выполняющие чужую работу. Если бы от этого можно было отказаться — был бы в первых рядах.
Вот вам ради общего блага влом две цифры набрать?
Вы считаете, что такая постановка вопроса что-то изменит? Да, влом. Причем не думаю, что это именно лень, просто это уже клиническая ненависть к капче. Такой вот я «борец с системой»
UFO just landed and posted this here
Бывает номера дает, а бывает текст из книжек
А откуда первая картинка («28»), какой источник?
Микрофильм или фото что ли?
На бумажный носитель не похоже (как мне кажется).
Если я не путаю, в таких случаях «сложное» слово допускается угадывать с ошибками. Таким образом идёт распознавание неразборчивых надписей за счёт пользователей.
«сложное» слово здесь как раз то, которое обязательно.
1. Потому что врядли в таком виде есть слова в книжках
2. Потому что простое слово просто распознать компьютеру
3. Потому что даже видны артефакты от скана на простом слове
Аргументы про «вряд ли есть слова в книжках» и «я вижу артефакты от скана», простите, высосаны из пальца. Естественно, там есть артефакты от скана, слово-то отсканировано. Это не меняет того, что оно проверочное.

Простое слово просто распознать компьютеру, поэтому оно и контрольное. То есть, оно уже распознано, результат известен, поэтому с ним можно сверять ввод пользователя. А вот сложное слово уже отдаётся на откуп человекам. Сам компьютер его распознать не может, поэтому записывает результаты разгадывания людьми, и после этого присваивает картинке наиболее часто встречающийся ответ.

«Сложное» слово выглядит таким нечитаемым, скорее всего, потому что было снято с замятой или попорченной страницы. К тому же при предобработке вон как резкость/яркость накрутили. Алгоритм выявления граней перестарался, я думаю. Аж ступенек наделал.
Подвязал к профилю google+ и горя больше не знаю.
Странный выбор эрудита для картинки. С Анатолием Вассерманом было бы намного смешнее и нагляднее.
Не надо рекапчу ни на что заменять.
Если лень разбираться с закорючками, то всегда можно ткнуть мышью и получить новый вариант.
Раз максимум на третий-четвёртый выдаётся вполне себе читаемая картинка.
Вот то, что было на хабре до рекапчи — это действительно было зло.
Последняя версия ReCaptcha (та которая с цифрами) довольно таки простая.
насколько я знаю есть OCR, с ~ 80-90%

другой момент, что на втором видео, по какой-то причине та же Рекапча не распознается полностью их супер-пупер алгоритмом (номера домов не распознаются).

И так как это стартап и судя по сайту они привлекают инвесторов, а для привлечения инвесторов, что надо? — Громко о себе заявить.
Вполне, что это просто пустышка.
Состряпать такое видео и я могу.

А вообще навеяло, как один умник-кидала продавал мега скрипт OCR, который распознавал с 100%. Ему кидали капчу в форму, а он на другом конце вручную вбивал быстро-быстро )
Попытался поискать в чем же цимес, не нашел ничего кроме суперкозырной Recursive Cortical Network ™ и кучи маркетинговой шелухи.
Мне почему-то кажется, что CNN(Convolutional Neural Networks) справятся не хуже
так а есть чо про RCN почитать? я что-то ничего не нашел…
Технологический стартап Антикапча уже много лет на рынке раcпознавания CAPTCHA
Я вообще перестал понимать зачем в мире существует капча, если антигейт и похожие распознают эти капчи силами индусов по 0.7$ за тысячу разгаданных капч. В итоге из 1000 честных юзеров каждый потратит 30 секунд жизни на 2-3 попытки логина (и того 8 часов коту под хвост), а какой-нибудь ботовод заплатит 0.7$, потратит 2 часа на написание скрипта и получит свою 1000 входов. Где смысл?
В своё время слышал историю (или байку?), что для этих целей используются посетители порносайтов. Т.е. вожделеющему для просмотра содержимого нужно вести капчу, которую ему подсовывают с «обрабатываемого» сайта.
Думаю, что это байка. Слишком долгий будет ответ. На антикапчи работают индусы и школьники с «колотибабло» и пр.
Смысл в бруте. Антигейты не мнгновенны и стоят денег, капча делает брут акков затратным делом. Убери капчу или поставь ту, которую можно легко разобрать программно — много акков будет украдено.
Есть какая-то магия в том, чтобы отсечь сотый запрос на авторизацию за день к одному логину с разными паролями, или к разным логинам с одним паролем?
По конкретным логинам — да. Но, банить по одному паролю? Есть несколько подходов к бруту, один из них — масс брут. Если у атакующего достаточное количество проксей, то попытки подбора простых паролей не остановить :) Спасет только капча и то относительно)
При массовом бруте, к примеру, пароля «123456» надо владельцам таких паролей принудительно менять пароль на случайный 20-значный с уведомлением по почте — вот и всё.
С чего это вдруг 0.7$? Посмотрите график на их сайте — ниже 1$ не опускается (сейчас показывает 1.58$), а чаще всего и того больше — вплоть до 2-3$. Это самый дорогой сервис из существующих. На том же пиксодроме ( pixodrom.com ) цена стабильная 1$ за тысячу
Я не о конкретном сервисе, а в общем о порядке цен и смысле.
Всё жду плагина к браузеру, который используя antigate будет за меня капчу разгадывать.
Я как раз подобный проект не так давно забросил из-за нехватки времени. Делалось just for fun, не думал, что это кому то действительно может быть интересно)
UFO just landed and posted this here
Если залезть наружу, ничего плохого не будет.
Если не ошибаюсь, то цвет ручки тоже имеет значение.
Думаю, в ЕГЭ, если ставить галочки как попало и писать бледными ручками, то точность обработки результатов понизится. А кому охота, чтобы его результаты ЕГЭ обрабатывались с точностью 90%?
Ну и будем все жить в дерьме спамщиков, без фильтраций. Следующих их шаг обходить скоростемеры опасных участков? Способы пронести оружия в самолеты? Чтоб вода из унитаза выходила наружу, а не уходила вниз?
Простите…
Да ладно… вы уж прям нафантазировали… Просто введут какую нибудь другую капчу, где не картинку нужно распознать а ответить на какой-нибудь нехитрый вопрос для человека… Например: «Коля воткнул вампиру кол в сердце. Ему это показалось мало, пришлось отрубить голову.» Вопрос, кому показалось мало? Не уверен, что современные ИИ смогут корректно ответить на такого типа вопросы… Тут нужно ПОНИМАТЬ…
Точность угадывания в таком случае достаточно высокая.
Ну и в данном случае понимать не особо нужно, нужно строить семантическое дерево, а это уже худо-бедно умеют: www.aot.ru/demo/graph.html
1. Я в своё время в аське поставил вопрос в спам-фильтре: «В каком году проводилась Олимпиада в Москве (4 цифры)?» И что вы думаете? Моё мнение о половине моих знакомых изменилось не в лучшую сторону. )))

2. И вообще, мне кажется, что это больше подходит для клиентов IM. А для популярных сервисов нагенерить килотонны таких вопросов сама по себе не самая тривиальная задача. Или это будет что-то из разряда задачек Григория Остера.

3. А почему про матан-капчу ещё никто не вспомнил?
Тут вижу проблему. Капчу можно генерить как «бесконечное число вариантов», но генерить подобные вопросы на понимание, как капчу, невозможно. Тут либо конечное число корректных вопросов, на которые способен ответить белковый организм, либо паттерн генерации вопросов.

Первый решается сбором всех возможных вариантов, второй анализом шаблона и построением дерева.
Или я что-то упускаю?
> но генерить подобные вопросы на понимание, как капчу, невозможно.
Я бы не был так категоричен.
Вопросы на понимание генерить в принципе возможно! Как вариант: взять несколько книг в электронном виде, выделить оттуда факты, отсеять фильтром (скажем, слишком умные и сложные факты, либо оставить только те, что под силу человеку данной возрастной категории/специальности/народности...) и задать по ним вопросы. Сейчас это да, очень трудно сделать, но слово «невозможно» здесь неприменимо.
Какой правильный ответ? Сердцу, Коле или Вампиру?
Вампир сказал Коле. -Мало! Руби мне голову.
Ну и пришлось отрубить ему голову…
Один из тех случаев, где машины будут лучше людей)
А если так?
image


Или так?
image
(Да, боян, конечно...)

А… ниже уже предположили, что это не ботов а людей отсеивать…
Супер! Кстати, тут уже упоминали про использование года Олимпиады в Москве в этом же контексте.

Ещё видел такое решение:
image

А для Хабра могли бы капчи с распознаванием языка программирования по куску кода на картинке сделать… или написать результат исполнения этого кода. Например:

UFO just landed and posted this here
… или как-то так. И после решения получаешь права супер-пользователя (чтобы это ни значило)
UFO just landed and posted this here
Не знаю, но первое упоминание я нашёл тут, а переведённая картинка – с vk.com. Если её поискать в Гугле как картинку, то в компании с ней находится очень много чего интересного
Всё намного проще.
Достаточно выделить в данном предложении все существительные/местоимения и выбрать одно из них наугад. Вероятность случайного угадывания будет вполне достаточной для спамера. В вашем примере она равна 1/6 (Коля, вампиру, кол, сердце, ему, голову), что очень даже хорошо.
А то сейчас нет программ, делающих разбор по частям речи. Причём уж тут-то компьютеры точно будут лучше среднестатистического человека — сколько ваших знакомых помнят что такое деепричастие?
Такая капча все равно очень легко ломается. Капча это вообще не защита от ботов. См мой комментарий ниже
Капча никогда не останавливала спамеров;) При определенных масштабах, ее сломать было очень просто. Начиная от использования индусов и китайцев, заканчивая подстановкой капч на реальные сайты, где пользователи сайта будут ее взламывать. Это с одной стороны сервиса. А с другой — простое api, на вход подается картинка, на выходе — ответ, который нужно ввести.

Быстрее бы появились опенсорсные программы, которые бы ломали капчу в 99% случаев, чтобы сайты уже отказались от такой дурацкой защиты.
Придумается еще более дурацкая защита
Так уже давно. «Введите номер телефона, на него придёт смска с кодом».
UFO just landed and posted this here
Таких результатов удалось добиться, создав архитектуру максимально близкую к человеческому мозгу.

Поподробнее бы об этой части почитать…
UFO just landed and posted this here
ну и как бороться с этой нейросетью?
генерить теперь последовательности типа <звезда> <кружочек> <квадратик> <треугольник>, которые воспринимаются на следующем уровне абстракции?)
Интеграл от нуля до двух пи синуса икс по дэ икс:)
Это вы скорее людей отсеете. Или если написал ответ, значит 100% бот?
Ну это смотря где:) Понятно, что в каком-нибудь вконтактике надо что-то другое:)
Ну как сказать… Примерно в той же степени, что и выкопать кубическую яму со стороной два метра в обычной земле. Что и как делать, понятно, но долго.
Если Вам мой пример показался столь же трудоемким, прошу прощения.
Наверное пример требующий решения численными методами более понятно выразил бы мою мысль. Решить его человек может. Просто компьютер на такое решение потратит существенно меньше времени. А значит использование его для теста тьюринга не слишком умная мысль.
Ну так тест Тьюринга и не в вычислении значения, а в понимании задачи, так сказать. Согласен, про матлаб и другие системы символьных вычислений я забыл.
Если писать обычным шрифтом — то распознать пример для решения будет просто. Подключат какой-нибудь матлаб к распознавалке и привет. Зато куча живых людей не сможет войти :)
Да, про матлаб я как-то не подумал. Про живых людей — ну так любая задачка будет какое-то множество людей отсекать. Например, если человек читать не умеет, то он и капчу не введет:) Или с латиницей могут проблемы возникнуть.
Можно брать стихи школьной программы и просить недостающее слово в строке дописать, вроде «Я помню чудное мгновение, передо мной явилась **»
Думаю, гугл с этим справится лучше человека:)
Плюс к тому отсечение у такого метода очень высокое — даже очень образованные (и, возможно, неплохо знающие язык) англоязычные люди вряд ли продолжат строчку вида «Выхожу один я на ..,», например. Или Вы далеко не факт, что сможете ответить на вопрос из серии "… sat on a wall". C этим можно бороться, конечно, позволяя пользователю выбрать язык…
Билеты ПДД внедрить, не те что на экзамене, а фотографии с улиц.
Еще тогда можно быть увереннее, что возраст посетителя больше 16 лет.
Бороться рублём^W биткоином.

BitcoinPayment — это расширение для MediaWiki, дающее доступ к редактированию тем, кто произвёл оплату. Недостаток: деньги не возвращаются, даже если пользователь соблюдает правила.

Есть также схема предоставления доступа к сервису, при которой деньги возвращаются через некоторое время. Это время зависит от того, нарушает ли пользователь правила.
UFO just landed and posted this here
Можно сделать проще. Например, фото, где изображено 20 человек, и один из вопросов вида:
— сколько усатых людей на данной картинке?
— сколько девушек на данном фото?
— сколько человек сидит на диване?
— сколько человек сидит на подоконнике?
— сколько человек держит на руках котов?
— сколько на фото блондинок?
— сколько человек в джинсах?
Т.е. надо ввести всего одно число.

Для человека такая капча куда проще Рекапчи, угадывается мгновенно, а вот алгоритм засыплется только в путь. Если кажется слишком просто для брутфорса, то можно сделать так, чтобы выводилось одновременно 4 таких капчи, и все 4 ответа должны быть верными, чтобы прокатила регистрация.
UFO just landed and posted this here
Фотки можно генерировать в виде коллажей. Составить БД, куда поместить кучу тегированных фигурок людей + локаций (диван, стол, окно и.тд.). Вместе с каждой фигуркой лежит набор её тегов — усы, джинсы, блондинка, девушка и т.д.
И дальше из них автоматически составляется сюрреалистичный коллаж путём миксовки с некоторым рандомным фоном, причём алгоритм генерации может даже делать фигурки частично перекрывающимися.
Выделить фигуру и опознать, мужчина это или женщина — та ещё задачка для взломщика капчи…
Хуже того, фигурки можно сделать в 3D — тогда генератор капчи сможет ещё и рендерить их с разных ракурсов, под разными углами. Человек распознает девушку под любым углом, а вот боту это будет сложновато.
Выделить фигуру и опознать, мужчина это или женщина — та ещё задачка для взломщика капчи…

У меня сын (1.5) часто называет женщин «дядей» на улице — так что и человеку иногда непросто.
UFO just landed and posted this here
И всегда почему-то забывают про количество возможных вариантов.
Ну, сколько может быть человек на фото? 2? 10? 50? Уже после второго десятка пользователи пошлют лесом такой сервис.
Поэтому получаем, что всего возможных вариантов ответов от 1 до примерно 20. Отсюда следует, что процент возможных верных ответов у спамера будет 5%.
P.S. А если просмотреть энное количество фоток и проанализировать среднее количество людей на фото, то вероятность правильного случайного ответа вырастет в разы.
P.P.S. Если вопрос начинается со слова «Сколько...», то считайте, что ваша «капча» уже сломана.
Пока что лучше графической капчи ничего не придумано.
Будущее — это когда компьютер будет разгадывать капчу лучше тебя.
Ну и как всегда в первую очередь аукнется это изобретение на обычных добросовестных пользователях — придется разбирать еще более сложные капчи, которые не по зубам этому алгоритму. Эх, где те времена, когда капчи были простыми цифрами на картинке…
Я несколько раз хотел на одном сайте комментарий написать, но у меня так и не получилось из-за капчи. Вот сразу первые, что попались:

image

Как разобрать подобное – ума не приложу, может хоть машина научится это делать. Только двигаться нужно не в сторону эмуляции человеческого мозга.

Ну, я уже где-то показывал, когда не можешь долго ввести рекапчу, она еще и издевается :(

image
Думается мне, у них просто косяк какой-то и на капче выводится только шум, а сами символы нет.
Например, нужный шрифт отвалился.
Молодцы парни, прям «подарок» всему интернету, можно сказать «второе дыхание» открыли спаммерам. Наконец-то бедняги смогут наживаться на нервах по полной.
Распознать reCAPCHA может сам Google через Google Goggles :)
Особо заковыристые не узнает, а вот простые или ту часть которая необходима, узнает.

Это та самая иерархическая темпоральная память? Или что-то новое?
Они не публиковали пока хотя бы поверхностного описания структуры своей НС?
На их сайте что-то ничего дельного не нашлось…
То обсуждение стоит отдельного перевода, на самом деле.
интересно, 90% верных отгадываний или отгаданных букв? второе как бы и не даст залогиниться )
Sign up to leave a comment.

Articles