Как стать автором
Обновить

Комментарии 98

Она должна сходу читаться, но не в ущерб стойкости к распознаванию. Очень наглядный пример капчи, не соблюдающей это правило — изображение справа.

Это вы называете сходу читаться? Да тут в лучшем случае только 50% можно сходу прочесть. А остальные нужно долго разглядывать и гадать, то ли это o+t, толи a+i, а может o+l. Терпеть немогу эту капчу гугла.
Читайте внимательнее :)
Она должна сходу читаться, но не в ущерб стойкости к распознаванию. Очень наглядный пример капчи, не соблюдающей это правило — изображение справа.
Да, к сожалению именно это «НЕ» и не заметил. Но написаного уже не сотрешь :)
И да, полностью с вами согласен насчет гугловской капчи. Хочется найти ее разработчика и ударить его.
гугловская капча (recaptcha) — это слова из книг которые не смог распознать парсер гугла. А гугл лишь добавляет искажения(размеры букв, наклон и тп). Так что разработчик тут не причем
recaptcha и капча в гугловых сервисах — это разные вещи, хоть и от одной компании
Ваш вариант? Где можно посмотреть? Только мигом, а то я спешу ;))
А мне нравится капча с вводом символов мышкой. Порядок символов из 6-8 знаков тоже тяжело правильно ввести роботу, зато человеку гораздо проще.

А вообще, суперпараноидальные капчи спокойно «высчитываюся» индийскими сервисами, где сидят полмиллиарда идийцев и спокойно распознают(ся) (за минимальные деньги)
Когда такие сервисы только начали появляться, то я попробовал этим позарабатывать, в первый день открытия одного такого. Расценок не было, говорили, что вот-вот добавят. День и ночь я убил на это, грохнулся спать (потирая руки). Когда проснулся, обнаружил, что мой заработок составляет $0.7. Какое же это было разочарование.
Я себе представить не могу человека, который упорно трудится и «зарабатывает» на этом деньги.
Это у вас с непривычки получилось 0.7$ :)
На хлопковых плантациях Индии, индиец зарабатывает 2$ в день, где 0.75$ — ночлег и плюс 0.5 у.е. питание. Вот кто будет упорно трудится за 2$ в день. Лучше спокойно в офисе рзгадывать капчи, чем под палящем солноцем собирать хлопок.
Так что мы еще «жируем». Богатый бедного не поймет :)
Ваша капча распознается с использованием самых тривиальных техник, потому что:
  • Все буквы одного цвета
  • Линии «шума» — одного цвета и этот цвет не совпадает с цветом букв.
  • «Шум» на фоне отсеивается просто по цвету соседних пикселей
Странно, что кусок комментария обрезался.
Определить пару цветов — букв и линий «шума» можно обычной гистограммой.
Отделить цвет букв от цвета линий можно анализом пиков на гистограммах, построенных по столбцам изображения.
Закрасить повреждения на буквах можно просто анализом соседних цветов.
В итоге получаем черные буквы на белом фоне — разрезаем по вкусу и распознаем.
Видимо, я слишком увлекся идеализацией капчи в начале топика, потому, что я особо на это не обращал внимания на это когда писал код :) Цель была не сделать непробиваемую капчу, а показать, как она вообще делается средствами PHP.
Но я полностью согласен, вот такая капча читается, но ничто не мешает поправить ее в коде, ибо комментарии есть чуть ли не к каждой строчке.
Добавлю.
Следующие вещи можно менять в коде просто подправив значения:
— Шрифт
— Фон
— Размер шрифта
— Положение капчи
— Расстояние между символами
— Угол поворота символов
— Шум (цвет, положение, количество)
— Разница в положении символов по Y
Просто это все надо балансировать, очень аккуратно менять эти значения. Топик создан лишь в образовательных целях, вряд ли кто-то будет пользовать эту капчу на практике :)
Капчи нынче распознаются не ботами, а людьми. Существуют сервисы decaptcher.com, captchabot.com, antigate.com и им подобные.
Программно же распознаются достаточно простые капчи, где процент пробива достаточно высок, всё остальное идёт через сервисы по распознаванию.
В запросе подменяем куки captcha на md5(«31337») и полю code POST-данных присваиваем значение «31337».
Вывод: не храните важных данных на стороне пользователя, используйте сессии.
Неверное суждение. В данном конкретном случае — да, так вполне можно пробиться через капчу, но ведь легко можно заметить, что этот алгоритм запросто меняется в go.php. Я могу трижды извлечь MD5, из него SHA-1, из получившегося значения беру от 7 до 32 символов с конца, опять извлекаю MD5 ну и так далее.
Надо комментировать эту фичу, да, спасибо за наводку.
Это не оправдание использование дурного подхода.
Но задумывалось именно так :)
Подход не дурной, просто надо уметь его готовить.
Ок — пруфлинки рекомендации использовать данный подход хоть от одного более-менее авторитетного человека?
Хорошо, я не хочу ни с кем спорить :)
Добавил закомментированные строчки для работы с сессиями.
Хоть 100500 раз шифруйте закрытым ключом длиной 100500 бит (при условии что он не меняется), рано или поздно будет набрана статистика капча -> кука. Куки на клиенте не должны зависеть от капчи, для этого можно использовать либо стандартные сессии, либо какой-то свой механизм хранения соответствия капчи от независящей от неё куки, POST- или GET-параметра. Самый простой способ «в лоб» — таблица в БД с двумя полями: поле id — монотонно возрастающий или случайный первичный ключ капчи, передаваемый в форму и поле value — значение капчи. Но это, имхо, оверхид — достаточно любого key-value хранилища даже не гарантирующего персистентность, лишь бы минут 5 (или сколько в среднем требуется для заполнения формы) хранил при вашей нагрузке. В PHP для этого есть сессии, можно использовать шаред мемори, можно кэш акселлераторов, можно memcache, но сессии самое простое и очевидное решение.
Вы видимо не поняли, как вы будете шифровать не важно, главное в том, что ключ лежит в куках, достаточно один раз считать его и угадать каптчу вручную, и потом всё время отправлять эту же пару ключа и угаданной каптчи, ваш скрипт будет ее принимать. Нужно обязательно хранить в сессии, чтобы нельзя было отправить одну и ту же каптчу дважды.
только матан, только хардкор :)
image
была идея написать о таком, но мне стало так влом писать генератор для матан-капчи. я себе даже не представляю, как его сделать.
Первое, что приходит в голову — ТеХ + искажатели.
Можно генерировать строку типа integrate(sin(2x)+x^8^0.5), делать запрос к wolframalpha.com и тырить оттуда картиночку с преобразованной строкой.

www.wolframalpha.com/input/?i=integrate%28sin%282x%29%2Bx^8^0.5%29

Вот отсюда, например.
Написал генератор, написал топик, но опубликовать не получается…
Генерит вот такое:
Работает на PHP+GD.
Ну тут нужно просто составные символы разобрать. А всё остальное сделают сервисы типа WolframAlpha.

Тыц!
Ну с лурковскими пределами можно поступить точно так же. Тут главное — оригинальность =)
Такие выражения может вычислять Maxima.
Кроссплатформенное консольное приложение.
Причём ответ может выдать даже в виде алгебраического выражения.
НЛО прилетело и опубликовало эту надпись здесь
Слабоватая капча — предел считается в уме на пару секунд. Надо чтоб был сложный дифур, с кучей граничных условий :)
За 5 минут написал скрипт, который делает с этой капчей вот так:
надо сделать букмарклет, который будет так обрабатывать капчи. реально гораздо легче читать х)
шум и полоски элементарно убираются любым высокочастотным фильтром. так что роботу пофиг, а человеку — вырвиглаз.
полоски поверх букав зачастую не дают прочитать буквы.
и вообще, выделить тут основной цвет букв — проще пареной репы, потом отфильтровать другие цвета — элементарно. так что зачем все эти пляски — не понятно.

прежде чем писать капчу я бы рекомендовал сначала потренироваться с ее взломом. тогда придет понимание какие преобразования усложняют распознавание (например, те, которые усложняют сегментацию), а какие нет (например высокочастотный цветной шум).
Не увидел в данном примере простой читабельной каптчи, например каптча от проекта KCaptcha выглядит весьма читабельнее: image

Да и одной каптчи уже недостаточно, сервисам по распознаванию не имеет значение, что распознавать.
5bayp
image

Спасибо за поднятое настроение!
А причем тут Ruby On Rails?
Возможно дефект речи, для него ROR и LOL одно и тоже?:) p.s. Adiost не в одиду, just4fun
Подозреваю, тут обыгрывается факт, что у китайцев и, кажется, японцев большие проблемы с произношением звука «л» — они говорят его ближе к «р».
Просто у них в языке звука «л» в европейском виде нет, они не приучены.
У китайцев есть Л, нету у японцев. Однако же бытует ошибочное мнение, что у китайцев его тоже нет.
ККэптча от настроек сильно зависит. Если наклон и изгиб сильно варьируются и есть небольшое наслаивание букв, то иногда тоже читать тяжко
После проверки капчи нужно удалить cookie / запись в сессии, поскольку можно один раз вручную правильно ввести капчу, после чего бот может использовать это же самое значение с теми же cookie / сессией.
после подгрузки капчи куки меняется.
Бот не обязан подгружать ее.
Попробуйте вот такой вариант: pastebin.com/RKhTV82Q
Очень мало капчестроителей уделяют свое внимание этой проблеме.
Очень много кап в своей жизни я обошел именно этим способом. Один раз распознал сам и далее использовал плоды своего разума :)
$DOCUMENT_ROOT = $_SERVER["DOCUMENT_ROOT"];
define("img_dir", $DOCUMENT_ROOT."/captcha/img/");


не лучше ли сделать так?:

define ( 'DOCUMENT_ROOT', dirname ( __FILE__ ) );
define("img_dir", DOCUMENT_ROOT."/captcha/img/");


$_SERVER[«DOCUMENT_ROOT»] на поддоменах будет криво работать
Спасибо, подправил :)
Что-то у вас какой-то странный стиль именования констант. То большими буквами, то маленькими. Это опечатка или он несет какой-то сакральный смысл?
Так много букв, а результат не интересно взламывать :(
А вообще за статью спасибо.
Лично я знаю много людей, у которых на ~ (тильда / ё) повешено какое-то действие в системе.
А как эти люди набирают слова, где «ё» требуется? Например, я живу на улице Константина Царёва, а не Ца́рева.
alt+241 например
Экий гемморой из-за желания занять тильду.
Как по мне — так сегоднящнии капчи создают больше неудобств для пользователя, нежели для бота. ИМХО
Нужно чтото более легче для юзера и сложнее для бота. Например собрать пазл из 10ти частей или еще что-то интересней…
Согласен с Вами.
Captcha в виде текста, который надо набрать абсолютно не отвечает требованиям юзабилити. Да, это стандартный для разработчиков способ, но он ставит преграды (порой непреодолимые) перед обычными пользователями.
В интернете достаточно примеров, как можно обойтись без классической капчи, эти примеры демонстрируют творческий подход разработчиков к решению задачи и заботу о своих пользователях.
Конечно, многое зависит от задачи, которую Вы решаете.
Как вариант капча с подсказкой :) Ввод символов мышкой с виртуальной клавиатуры. Последовательность 8 символов тоже не очень будет удобна для робота, даже если он будет знать какие символы. (1*2*3*4*5*6*7*8=40320)

А вот человеку гораздо легче. Да я думаю и на 5-6 робот с вероятностью 99.999% будет промахиваться (если конечно подсунуть «правильную» капчу с шумом, наклонами и т.п.

Правда любая капча ломается миллиардом индийских программистов.
Обрывки математических формул в рекапче в последнее время встречаю всё чаще.
А теперь напишите распознаватель Вашей каптчи — в процессе появятся мысли как её усовершенствовать :-)
очень хороший пример как не надо делать капчи.
получилась легко распознаваемая, вызывающая рвотный рефлекс своим видом поделка. хранение в куке на стороне клиента — верх идиотизма.

ты хоть понимаешь, что не важен какой адгоритм, если мы можем повторно использовать куку. в примере с сессией у тебя тоже ошибка, после проверки значение сессии должно сразу после извлечения ансетиться, чтобы никто посторно не воспользовался тем же кодом. в твоём случае достаточно достаточно единожды запросить картинку. а дальше просто формировать руками $_POST с нужным единожды сгенерированным.
Забыл :) Исправил, вроде бы. Торопился когда код для сессии писал, убегать надо было.
Насчет рвотного рефлекса — опять же, я не заморачивался с этим. При помощи этого кода можно вполне себе симпатичную вещь сделать.
Никогда мне не нравились эти буквенные капчи. Неужели человека от робота отличает только способность разбирать чей-то кривой почерк? Для каждого проекта нужно искать свой уникальный способ фильтрации спама. Универсальные средства давно имеют универсальные контрметоды.

На SmashingMagazine в начале марта была отличная статья на тему различных подходов к реализации теста Тьюринга: coding.smashingmagazine.com/2011/03/04/in-search-of-the-perfect-captcha/

P.S. Собирался перевести статью на русский, но на середине остановился, и все никак не соберусь =)
Я ее читал кстати. И тоже была мысль перевести, сейчас руки зачесались это сделать. Вы не против, или все таки планируете закончить?
Пожалуй, уступлю Вам. =) У меня сейчас объективно на это времени нет, а статья действительно полезна и интересна сообществу. Так что терпения и усидчивости Вам! ;)
Благодарю, постараюсь порадовать переводом как можно скорее!
Посмотрел демо.
«Ты правильно ввел капчу. Возьми с полки тортик, он твой.»
Ненавижу, когда мне вот так открыто со страницы тыкают незнакомые люди.
Все-таки, мы в интернете, давайте уважать друг друга.
Ой да ладно, всяко лучше, чем какое-нибудь пресное сообщение типа «Капча введена верна». Но на будущее учту :)
Всяко лучше? Не согласен.
Хорошо, искренне извиняюсь за подобную фамильярность, такого больше не повторится :)
Исправил в скрипте.
Спасибо :)
Согласно нетикету в интернете все на «ты», если что.
Ага, расскажите еще.
Почему-то практически на всех сайтах обращаются на «вы», например «введите пароль», «сохраните настройки», «скачайте файл».
Скажите Гуглу, что он не шарит в нетикете, пусть он вам напишет «Привет! Ты забыл пароль! Хочешь восстановить его?», а потом «Ура, ты восстановил пароль, теперь можешь взять с полки тортик».
Абсурд.
Где об этом сказано, кстати?
Скайп вот тыкает. Раздражает.
Лично я знаю много людей, у которых на ~ (тильда / ё) повешено какое-то действие в системе.
Появление консоли Quake что ли? ;)
Почти так и есть, правда я использую alt + ` для вызова guake.
При написании своей капчи на php мождно использовать удобные классы Zend Framework-а для работы с ней. Благо в ZF можно использовать отдельные компоненты библиотеки совершенно автономно.
Там есть класс Zend_Captcha, там автоматически генерируется кодовое слово, рендерятся различные виды шума (точки, палочки) и т.д. Все это гибко настраивается, наследуешься от него и все. Он тоже, кстати, на gd работает.
логинился на хабр, не с первого раза ввел пароль. Вырвал глаз от капчи. Грустно.
Кстати, про капчу, что вначале статьи (от recaptcha), главное ввести правильно второе слово. Вместо первого можно ввести всё что угодно.
А потом в один день вы не сможете решить капчу потому-что кто-то написал абракадабру =)
Статьи о защите капч от разгадывания ботом мне кажутся как с другой планеты. Кому надо писать распознавалку для каждого из сотен типов капч, если на капчаботе и т.д. стоимость разгадывания 1000 капч стоит… 1$ с попаданием 85-90%

Если капчу может разгадать «индус» с такого сервиса, значит сабмит защищенной ей формы можно осуществлять автоматически. Фактически, капча защищает только от ленивого программиста, не более.
Простые математические пока ещё надёжны (если специально не ломятся). Порою бывает достаточно просто поменять имена полей местами (ну и переменных конечно), или же заполнять скрытое поле javascript'ом. При виде извращений на подобии уже нечитаемых recaptcha, не что комментировать не хочется, порою и на регистрацию (большинство даже значения полей сбрасывают) времени тратить не хочется.
Попробовал каптчу, только с третьего раза смог прочитать что написано :)
У меня на форуме была простая текстовая капча с одним вопросом «Какого цвета небо?»
Ни один спамбот её не смог взломать, а пользователи были избавлены от необходимости разбирать искажённый хаотичный набор букв с картинки.
Капча — треугольник, перевернутый труегольник, квадрат, круг, треугольник. Это картинки.
Дальше рядом картинка (треугольник и перевернутый треугольник — «треугольник») квадрат — «квадрат», круг — «круг».
Вопрос — напишите названия символов из капчи через запятую, как указаны в подсказке. Вот картинкаimage
Ну и конечно, же жесть для автоматизированного перебора — 3 ввода — бан по ip на 5 минут, через 3 ввода — бан увеличивается в 2 раза и так далее. От ручного ввода ничего не спасет, если вы не будете усложнять распознавание капчи реальными пользователями.
другой вариант, тоже легко распознаваемый — image
Вариант, которые используется конкретными сайтами со специфичской тематикой. Вместо капчи задаётся вопрос, который касается темы сайта. Главное делать подобное нечувствительным к регистру (+ указать все известные варианты написания (сокращённо и нет (если название)) в качестве ответа)
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.