Классно! У нас в соседнем институте похожей темой занимаются=) А ведь интересно, что на последней картинке — самые простые капчи для человека, оказались «самыми сложными» для системы
РеКапча — зло.
Вроде я и человек, но только с 5-7 попытки угадываю. Или это уже профессиональная деформация?
Обращение к Тематическим Медиа, замените капчу на входе на что-то попроще для человека, пожалуйста.
Пруф найти не смог, если в двух словах:
Одно из 2х слов написано роботом, а второе — неопознанное слово из реального мира: оцифровок книг, фоток, панорам. Т.е. его разгадывать не обязательно, ибо робот не знает что это за слово.
Это-то я знаю, вопрос почему именно то, которое труднее, и надо вводить? Я думаю, проверяется то слово, которое с наибольшей точностью считается уже распознанным. В общем, имею в виду, что еще не распознанное слово может быть труднее распознаваемым.
Вообще, по сути Рекапча работает во благо — она помогает распознавать то, что не распознали OCR-системы при распознавании книг или участков фотографий.
А с помощью такого софта теперь можно забить болт на пиксодромы, антигейты и прочие антикапчи.
Вот интересно, а показывается одна и та же капча (распознавание которой не известно) разным людям. Анализируется ли результат, чтобы уменьшить количество ошибок и обходов системы?
Осталось только уточнить, на чье благо она работает. В последнее время заставляет распознавать в основном номера домов на улицах. Меня, во всяком случае.
Где-то проскакивала информация, что если с IP (или диапазона IP) капча регулярно вводится с ошибками, то предполагается, что идёт подбор и капча усложняется.
Так что если у вас динамический IP, то многое зависит от того, кто им пользовался раньше.
Мне, например, сейчас хабр такую предложил:
Лично меня раздражает, когда мое личное время и нервы используют для «благих целей». Всегда, когда вижу капчу с номером дома, специально ввожу номер неправильно. Если угадать второе слово, все равно пускает :)
Не думаю, что мое «хулиганство» что-то изменит, всегда же остаются пользователи, с радостью выполняющие чужую работу. Если бы от этого можно было отказаться — был бы в первых рядах.
Вы считаете, что такая постановка вопроса что-то изменит? Да, влом. Причем не думаю, что это именно лень, просто это уже клиническая ненависть к капче. Такой вот я «борец с системой»
Если я не путаю, в таких случаях «сложное» слово допускается угадывать с ошибками. Таким образом идёт распознавание неразборчивых надписей за счёт пользователей.
1. Потому что врядли в таком виде есть слова в книжках
2. Потому что простое слово просто распознать компьютеру
3. Потому что даже видны артефакты от скана на простом слове
Аргументы про «вряд ли есть слова в книжках» и «я вижу артефакты от скана», простите, высосаны из пальца. Естественно, там есть артефакты от скана, слово-то отсканировано. Это не меняет того, что оно проверочное.
Простое слово просто распознать компьютеру, поэтому оно и контрольное. То есть, оно уже распознано, результат известен, поэтому с ним можно сверять ввод пользователя. А вот сложное слово уже отдаётся на откуп человекам. Сам компьютер его распознать не может, поэтому записывает результаты разгадывания людьми, и после этого присваивает картинке наиболее часто встречающийся ответ.
«Сложное» слово выглядит таким нечитаемым, скорее всего, потому что было снято с замятой или попорченной страницы. К тому же при предобработке вон как резкость/яркость накрутили. Алгоритм выявления граней перестарался, я думаю. Аж ступенек наделал.
Не надо рекапчу ни на что заменять.
Если лень разбираться с закорючками, то всегда можно ткнуть мышью и получить новый вариант.
Раз максимум на третий-четвёртый выдаётся вполне себе читаемая картинка.
Вот то, что было на хабре до рекапчи — это действительно было зло.
Последняя версия ReCaptcha (та которая с цифрами) довольно таки простая.
насколько я знаю есть OCR, с ~ 80-90%
другой момент, что на втором видео, по какой-то причине та же Рекапча не распознается полностью их супер-пупер алгоритмом (номера домов не распознаются).
И так как это стартап и судя по сайту они привлекают инвесторов, а для привлечения инвесторов, что надо? — Громко о себе заявить.
Вполне, что это просто пустышка.
Состряпать такое видео и я могу.
А вообще навеяло, как один умник-кидала продавал мега скрипт OCR, который распознавал с 100%. Ему кидали капчу в форму, а он на другом конце вручную вбивал быстро-быстро )
Попытался поискать в чем же цимес, не нашел ничего кроме суперкозырной Recursive Cortical Network ™ и кучи маркетинговой шелухи.
Мне почему-то кажется, что CNN(Convolutional Neural Networks) справятся не хуже
Я вообще перестал понимать зачем в мире существует капча, если антигейт и похожие распознают эти капчи силами индусов по 0.7$ за тысячу разгаданных капч. В итоге из 1000 честных юзеров каждый потратит 30 секунд жизни на 2-3 попытки логина (и того 8 часов коту под хвост), а какой-нибудь ботовод заплатит 0.7$, потратит 2 часа на написание скрипта и получит свою 1000 входов. Где смысл?
В своё время слышал историю (или байку?), что для этих целей используются посетители порносайтов. Т.е. вожделеющему для просмотра содержимого нужно вести капчу, которую ему подсовывают с «обрабатываемого» сайта.
Смысл в бруте. Антигейты не мнгновенны и стоят денег, капча делает брут акков затратным делом. Убери капчу или поставь ту, которую можно легко разобрать программно — много акков будет украдено.
По конкретным логинам — да. Но, банить по одному паролю? Есть несколько подходов к бруту, один из них — масс брут. Если у атакующего достаточное количество проксей, то попытки подбора простых паролей не остановить :) Спасет только капча и то относительно)
При массовом бруте, к примеру, пароля «123456» надо владельцам таких паролей принудительно менять пароль на случайный 20-значный с уведомлением по почте — вот и всё.
С чего это вдруг 0.7$? Посмотрите график на их сайте — ниже 1$ не опускается (сейчас показывает 1.58$), а чаще всего и того больше — вплоть до 2-3$. Это самый дорогой сервис из существующих. На том же пиксодроме ( pixodrom.com ) цена стабильная 1$ за тысячу
Я как раз подобный проект не так давно забросил из-за нехватки времени. Делалось just for fun, не думал, что это кому то действительно может быть интересно)
Думаю, в ЕГЭ, если ставить галочки как попало и писать бледными ручками, то точность обработки результатов понизится. А кому охота, чтобы его результаты ЕГЭ обрабатывались с точностью 90%?
Ну и будем все жить в дерьме спамщиков, без фильтраций. Следующих их шаг обходить скоростемеры опасных участков? Способы пронести оружия в самолеты? Чтоб вода из унитаза выходила наружу, а не уходила вниз?
Простите…
Да ладно… вы уж прям нафантазировали… Просто введут какую нибудь другую капчу, где не картинку нужно распознать а ответить на какой-нибудь нехитрый вопрос для человека… Например: «Коля воткнул вампиру кол в сердце. Ему это показалось мало, пришлось отрубить голову.» Вопрос, кому показалось мало? Не уверен, что современные ИИ смогут корректно ответить на такого типа вопросы… Тут нужно ПОНИМАТЬ…
Точность угадывания в таком случае достаточно высокая.
Ну и в данном случае понимать не особо нужно, нужно строить семантическое дерево, а это уже худо-бедно умеют: www.aot.ru/demo/graph.html
1. Я в своё время в аське поставил вопрос в спам-фильтре: «В каком году проводилась Олимпиада в Москве (4 цифры)?» И что вы думаете? Моё мнение о половине моих знакомых изменилось не в лучшую сторону. )))
2. И вообще, мне кажется, что это больше подходит для клиентов IM. А для популярных сервисов нагенерить килотонны таких вопросов сама по себе не самая тривиальная задача. Или это будет что-то из разряда задачек Григория Остера.
3. А почему про матан-капчу ещё никто не вспомнил?
Тут вижу проблему. Капчу можно генерить как «бесконечное число вариантов», но генерить подобные вопросы на понимание, как капчу, невозможно. Тут либо конечное число корректных вопросов, на которые способен ответить белковый организм, либо паттерн генерации вопросов.
Первый решается сбором всех возможных вариантов, второй анализом шаблона и построением дерева.
Или я что-то упускаю?
> но генерить подобные вопросы на понимание, как капчу, невозможно.
Я бы не был так категоричен.
Вопросы на понимание генерить в принципе возможно! Как вариант: взять несколько книг в электронном виде, выделить оттуда факты, отсеять фильтром (скажем, слишком умные и сложные факты, либо оставить только те, что под силу человеку данной возрастной категории/специальности/народности...) и задать по ним вопросы. Сейчас это да, очень трудно сделать, но слово «невозможно» здесь неприменимо.
Супер! Кстати, тут уже упоминали про использование года Олимпиады в Москве в этом же контексте.
Ещё видел такое решение:
А для Хабра могли бы капчи с распознаванием языка программирования по куску кода на картинке сделать… или написать результат исполнения этого кода. Например:
Не знаю, но первое упоминание я нашёл тут, а переведённая картинка – с vk.com. Если её поискать в Гугле как картинку, то в компании с ней находится очень много чего интересного
Всё намного проще.
Достаточно выделить в данном предложении все существительные/местоимения и выбрать одно из них наугад. Вероятность случайного угадывания будет вполне достаточной для спамера. В вашем примере она равна 1/6 (Коля, вампиру, кол, сердце, ему, голову), что очень даже хорошо.
А то сейчас нет программ, делающих разбор по частям речи. Причём уж тут-то компьютеры точно будут лучше среднестатистического человека — сколько ваших знакомых помнят что такое деепричастие?
Капча никогда не останавливала спамеров;) При определенных масштабах, ее сломать было очень просто. Начиная от использования индусов и китайцев, заканчивая подстановкой капч на реальные сайты, где пользователи сайта будут ее взламывать. Это с одной стороны сервиса. А с другой — простое api, на вход подается картинка, на выходе — ответ, который нужно ввести.
Быстрее бы появились опенсорсные программы, которые бы ломали капчу в 99% случаев, чтобы сайты уже отказались от такой дурацкой защиты.
ну и как бороться с этой нейросетью?
генерить теперь последовательности типа <звезда> <кружочек> <квадратик> <треугольник>, которые воспринимаются на следующем уровне абстракции?)
Ну как сказать… Примерно в той же степени, что и выкопать кубическую яму со стороной два метра в обычной земле. Что и как делать, понятно, но долго.
Если Вам мой пример показался столь же трудоемким, прошу прощения.
Наверное пример требующий решения численными методами более понятно выразил бы мою мысль. Решить его человек может. Просто компьютер на такое решение потратит существенно меньше времени. А значит использование его для теста тьюринга не слишком умная мысль.
Ну так тест Тьюринга и не в вычислении значения, а в понимании задачи, так сказать. Согласен, про матлаб и другие системы символьных вычислений я забыл.
Если писать обычным шрифтом — то распознать пример для решения будет просто. Подключат какой-нибудь матлаб к распознавалке и привет. Зато куча живых людей не сможет войти :)
Да, про матлаб я как-то не подумал. Про живых людей — ну так любая задачка будет какое-то множество людей отсекать. Например, если человек читать не умеет, то он и капчу не введет:) Или с латиницей могут проблемы возникнуть.
Думаю, гугл с этим справится лучше человека:)
Плюс к тому отсечение у такого метода очень высокое — даже очень образованные (и, возможно, неплохо знающие язык) англоязычные люди вряд ли продолжат строчку вида «Выхожу один я на ..,», например. Или Вы далеко не факт, что сможете ответить на вопрос из серии "… sat on a wall". C этим можно бороться, конечно, позволяя пользователю выбрать язык…
BitcoinPayment — это расширение для MediaWiki, дающее доступ к редактированию тем, кто произвёл оплату. Недостаток: деньги не возвращаются, даже если пользователь соблюдает правила.
Есть также схема предоставления доступа к сервису, при которой деньги возвращаются через некоторое время. Это время зависит от того, нарушает ли пользователь правила.
Можно сделать проще. Например, фото, где изображено 20 человек, и один из вопросов вида:
— сколько усатых людей на данной картинке?
— сколько девушек на данном фото?
— сколько человек сидит на диване?
— сколько человек сидит на подоконнике?
— сколько человек держит на руках котов?
— сколько на фото блондинок?
— сколько человек в джинсах?
Т.е. надо ввести всего одно число.
Для человека такая капча куда проще Рекапчи, угадывается мгновенно, а вот алгоритм засыплется только в путь. Если кажется слишком просто для брутфорса, то можно сделать так, чтобы выводилось одновременно 4 таких капчи, и все 4 ответа должны быть верными, чтобы прокатила регистрация.
Фотки можно генерировать в виде коллажей. Составить БД, куда поместить кучу тегированных фигурок людей + локаций (диван, стол, окно и.тд.). Вместе с каждой фигуркой лежит набор её тегов — усы, джинсы, блондинка, девушка и т.д.
И дальше из них автоматически составляется сюрреалистичный коллаж путём миксовки с некоторым рандомным фоном, причём алгоритм генерации может даже делать фигурки частично перекрывающимися.
Выделить фигуру и опознать, мужчина это или женщина — та ещё задачка для взломщика капчи…
Хуже того, фигурки можно сделать в 3D — тогда генератор капчи сможет ещё и рендерить их с разных ракурсов, под разными углами. Человек распознает девушку под любым углом, а вот боту это будет сложновато.
И всегда почему-то забывают про количество возможных вариантов.
Ну, сколько может быть человек на фото? 2? 10? 50? Уже после второго десятка пользователи пошлют лесом такой сервис.
Поэтому получаем, что всего возможных вариантов ответов от 1 до примерно 20. Отсюда следует, что процент возможных верных ответов у спамера будет 5%.
P.S. А если просмотреть энное количество фоток и проанализировать среднее количество людей на фото, то вероятность правильного случайного ответа вырастет в разы.
P.P.S. Если вопрос начинается со слова «Сколько...», то считайте, что ваша «капча» уже сломана.
Пока что лучше графической капчи ничего не придумано.
Ну и как всегда в первую очередь аукнется это изобретение на обычных добросовестных пользователях — придется разбирать еще более сложные капчи, которые не по зубам этому алгоритму. Эх, где те времена, когда капчи были простыми цифрами на картинке…
Молодцы парни, прям «подарок» всему интернету, можно сказать «второе дыхание» открыли спаммерам. Наконец-то бедняги смогут наживаться на нервах по полной.
Американский стартап разработал нейросеть, распознающую популярные CAPTCHA с точностью более 90%