Comments 70
Как в итоге исправили?
Зачем убирать отгаданные капчи?
Чтобы нельзя было разгадав большую часть пула руками или через антигейт сделать бота который проходит капчу с вероятностью пропорциональной отгаданной части пула.
Не совсем понятно почему такая вероятность будет значимой, ведь раз вы это дело оптимизируете — значит у вас большая посещаемость и большой пул ( 100500 обычно символизирует большое количество ). К тому же у вас они и так каждый день генерятся.
Просто при вашем подходе как не оптимизируй — к концу дня буду все равно самые сложные капчи, а значит пользователям будет нехорошо.
Просто при вашем подходе как не оптимизируй — к концу дня буду все равно самые сложные капчи, а значит пользователям будет нехорошо.
Дело в том, что, если не убирать капчу то можно даже тупо перебором или через автораспознавалку без оптимизации наугадывать столько капч, что это станет вероятностно значимым. А чтобы пользователям не было плохо — надо убирать не только успешно распознанные капчи, но и нераспознанные. Тогда вероятность того что капча доживет до вечера не будет зависеть от ее сложности. Именно так сейчас работает, завтра посмотрим…
Просто при количестве капч к примеру в 100к оно уже кажется не особо экономически целесообразным для спамера.
Но я не знаю практических особенностей вашего проекта.
Но я не знаю практических особенностей вашего проекта.
Собственно логично было бы удалять как отгаданные так и не отгаданные. В любом случае у вас же есть механизм генерации дополнительных в случае если капч осталось мало.
Можно сделать следующую схему: отгаданная капча не убирается до тех пор, пока не запускается генерация новых капч. В процессе генерации старые капчи (отгаданные и просто просмотренные) удаляются и заменяются новыми. Таким образом допускается повторное появление капчи в течении дня, и при этом гарантировано не придется днем генерировать новые капчи. Зато ночью все использованные капчи удалятся.
Символы D, O, o, 0 в капче это зло! Будьте благоразумны, уберите их
Уже
Еще зло — 1, i, I, j, J, тоже убрали.
Имхо не убирать их надо, а считать одинаковым символом…
Это уже высший пилотаж, не для вечернего хотфикса :) А если серьезно — то не могу сказать навскидку как лучше. Учитывать надо то требование, что сложность для нелюдей должна быть как можно более высока.
Соединение разных букв в одну группу однозначно упрощает подбор. Убрать лучше.
<теорвер>
[A_Za_z0_9] -> шанс 1/62.
[A_Za_z0_9] без [1, i, I, j, J, l], перебор без [1, i, I, j, J, l], [D, O, o, 0] -> Шанс 1/52.
[A_Za_z0_9] без [1, i, I, j, J, l], перебор с [1, i, I, j, J, l], [D, O, o, 0] -> Шанс 1/((52/62*1/62) = 1/73.92
[A_Za_z0_9], где [1, i, I, j, J, l] = [I'], [D, O, o, 0] = [0'] -> Шанс:
1/P = (6/62*6/62) + (4/62*4/62) + (52/62*1/62) = 0.02705515088
P = 1/36.96
[A_Za_z0_9], где [1, i, I, j, J, l] = [I'], [D, O, o, 0] = [0'], Шанс появления символа из первой группы меньше в 6 раз, из второй — в 4 раза -> Шанс:
1/P = (1/62*6/62) + (1/62*4/62) + (60/62*1/62) = 0.01821019771
P = 1/54.91
</теорвер>
Итого:
1) Оставить как есть: 1/62
2) Убрать 10 символов, перебор без них: 1/52
3) Убрать 10 символов, перебор с ними: 1/73.92
4) Объединить: 1/36.96
5) Объединить и подправить вероятность выпадения сгруппированных символов: 1/54.91
1 вариант — исходный. Имеем проблемы с похожими символами.
2 вариант — очевидное решение проблемы.
3 вариант серьезно рассматривать нельзя — рано или поздно заметят, что 10 символов не падает вообще.
На 4 мы очень сильно проседаем по сложности.
5 вариант: и решаем задачу с похожестью, и чуть выше сложность относительно скучного 2.
Как-то так.
PS
Шанс везде для капчи из одной буквы и идеальной случайной генерации/подбора.
Возведение в степень длины капчи никто не отменял.
[A_Za_z0_9] -> шанс 1/62.
[A_Za_z0_9] без [1, i, I, j, J, l], перебор без [1, i, I, j, J, l], [D, O, o, 0] -> Шанс 1/52.
[A_Za_z0_9] без [1, i, I, j, J, l], перебор с [1, i, I, j, J, l], [D, O, o, 0] -> Шанс 1/((52/62*1/62) = 1/73.92
[A_Za_z0_9], где [1, i, I, j, J, l] = [I'], [D, O, o, 0] = [0'] -> Шанс:
1/P = (6/62*6/62) + (4/62*4/62) + (52/62*1/62) = 0.02705515088
P = 1/36.96
[A_Za_z0_9], где [1, i, I, j, J, l] = [I'], [D, O, o, 0] = [0'], Шанс появления символа из первой группы меньше в 6 раз, из второй — в 4 раза -> Шанс:
1/P = (1/62*6/62) + (1/62*4/62) + (60/62*1/62) = 0.01821019771
P = 1/54.91
</теорвер>
Итого:
1) Оставить как есть: 1/62
2) Убрать 10 символов, перебор без них: 1/52
3) Убрать 10 символов, перебор с ними: 1/73.92
4) Объединить: 1/36.96
5) Объединить и подправить вероятность выпадения сгруппированных символов: 1/54.91
1 вариант — исходный. Имеем проблемы с похожими символами.
2 вариант — очевидное решение проблемы.
3 вариант серьезно рассматривать нельзя — рано или поздно заметят, что 10 символов не падает вообще.
На 4 мы очень сильно проседаем по сложности.
5 вариант: и решаем задачу с похожестью, и чуть выше сложность относительно скучного 2.
Как-то так.
PS
Шанс везде для капчи из одной буквы и идеальной случайной генерации/подбора.
Возведение в степень длины капчи никто не отменял.
Кхм… кажется вы не поняли мою идею:
— упростим жизнь пользователям и посчитаем это за один символ (хотя тут нужно ещё смотреть, какие считать за один, какие — нет… но как минимум 0 и О должны считаться синонимами, да и прочие подобные — тоже),
— в матрицу генерации добавим любой один символ из синонимичных — т.е. увеличим базовый набор
Т.е. например [A-Za-z0-9] без [O], с учётом того, что пользовательский ввод O даст нам при проверке 0.
Думаю в этом случае мы избежим рассчитанную вами проблему с синонимами.
— упростим жизнь пользователям и посчитаем это за один символ (хотя тут нужно ещё смотреть, какие считать за один, какие — нет… но как минимум 0 и О должны считаться синонимами, да и прочие подобные — тоже),
— в матрицу генерации добавим любой один символ из синонимичных — т.е. увеличим базовый набор
Т.е. например [A-Za-z0-9] без [O], с учётом того, что пользовательский ввод O даст нам при проверке 0.
Думаю в этом случае мы избежим рассчитанную вами проблему с синонимами.
Это как раз 5 вариант. Почти.
Давайте возьмем [A-Za-z0-9] без [O], и O будет давать 0.
А теперь давайте посмотрим, что получится, если вместо 0 в капче в половине случаев выводить нолик чуть потолще? Скажем, О? Введенные пользователем О и 0 все так же будут давать правильный ответ, с точки зрения вероятностей у нас совершенно ничего не изменилось. Просто визуально у нас появляется толстый нолик или тонкий нолик.
А теперь пойдем другим путем. Не будем убирать из кассы О, но порежем вероятность выпадения О и 0 в два раза. Введенные О и 0 все так же отвечают верно на любой из них.
Что мы имеем? У нас совершенно так же часто, как и любая другая буква, выпадает [О или 0]. Толстый нолик и тонкий нолик.
Другими словами, наши с вами варианты совершенно эквивалентны, просто в моем в капче у нолика периодически меняется форма. Но это все равно ни на что не влияет, потому что в капче у всего меняется форма — на то она и капча.
У меня, кстати, ошибка в расчетах в пятом варианте.
1 / p (1/54*6/62) + (1/54*4/62) + (52/54*1/62) = 0.0185185185
p = 1 / 54
Что, черт подери, равноценно извлечению 8 символов из кассы и перебора.
Давайте возьмем [A-Za-z0-9] без [O], и O будет давать 0.
А теперь давайте посмотрим, что получится, если вместо 0 в капче в половине случаев выводить нолик чуть потолще? Скажем, О? Введенные пользователем О и 0 все так же будут давать правильный ответ, с точки зрения вероятностей у нас совершенно ничего не изменилось. Просто визуально у нас появляется толстый нолик или тонкий нолик.
А теперь пойдем другим путем. Не будем убирать из кассы О, но порежем вероятность выпадения О и 0 в два раза. Введенные О и 0 все так же отвечают верно на любой из них.
Что мы имеем? У нас совершенно так же часто, как и любая другая буква, выпадает [О или 0]. Толстый нолик и тонкий нолик.
Другими словами, наши с вами варианты совершенно эквивалентны, просто в моем в капче у нолика периодически меняется форма. Но это все равно ни на что не влияет, потому что в капче у всего меняется форма — на то она и капча.
У меня, кстати, ошибка в расчетах в пятом варианте.
1 / p (1/54*6/62) + (1/54*4/62) + (52/54*1/62) = 0.0185185185
p = 1 / 54
Что, черт подери, равноценно извлечению 8 символов из кассы и перебора.
Ну в общем-то и идея в том, чтобы минимизировать извлечение символов из кассы — как вы заметили в такой ситуации мы выбрасываем не 10 а 8 символов, что в общем случае снижает потери сложности.
С другой стороны, нужно вообще задуматься, что такое капча: средство для усложнения НСД. Тогда и думать нужно не только/столько о шансе автоматического подбора (если картинка уникальна — то и подбор тут по сути не поможет), сколько о сложности распознания ботом, не забывая о сложности распознания человеком. В идеале — человек должен распознавать с полпинка, бот — только ну очень качественный (там стоимость бота и его работы сильно снижает риски).
Фух… Надеюсь более-менее понятно выразился.
С другой стороны, нужно вообще задуматься, что такое капча: средство для усложнения НСД. Тогда и думать нужно не только/столько о шансе автоматического подбора (если картинка уникальна — то и подбор тут по сути не поможет), сколько о сложности распознания ботом, не забывая о сложности распознания человеком. В идеале — человек должен распознавать с полпинка, бот — только ну очень качественный (там стоимость бота и его работы сильно снижает риски).
Продолжение рассуждения... но не в ту степь
Таким образом в идеале как раз таки нужно использовать относительно похожие символы для того, чтобы спутать бота, но при этом есть потребность, чтобы и человек её по прежнему распознавал. В такой ситуации синонимы снижают безопасность сильнее, чем их отсутствие. Но и обличают при этом ввод человека. Поэтому над набором символов, шрифтов и преобразований надо думать, при этом опираясь не только на голую математику.Но вот тут и начинаются проблемы — алгоритмы распознания постоянно улучшаются как и сложность капчей, из-за чего через некоторое время капчи станут защитой не от ботов, а от людей.
Фух… Надеюсь более-менее понятно выразился.
Я рассматривал вопрос исключительно с допущением, что перебор капчи идет случайным образом. Естественно, при подборе путем машинного распознавания нужно работать уже не инструментами теорвера — ну, как минимум не только ими.
Я был просто рад отвлечься на любопытную математическую задачку и пообщаться с умным человеком — на звание эксперта по капчам не претендую ни в раз.
Я был просто рад отвлечься на любопытную математическую задачку и пообщаться с умным человеком — на звание эксперта по капчам не претендую ни в раз.
Ну тут я просто заострил внимание, что с капчами всё хитрей, поэтому одной математикой не обойтись. В целом я и сам не эксперт, но несколько раз погружался в вопрос поглубже.
В целом было даже время, когда некоторые капчти как раз теор-вером и раскрывались (заранее сгенерированные, ограниченного объёма, без исключения из списка после (удачной) попытки).
С тех пор появилось:
— появились механизмы генерации / исключения из списка капчей (повторно воспользоваться угаданной невозможно)
— появились различные графические преобразования (мешают распознанию простыми алгоритмами, но, как уже писал, алгоритмы на месте не стоят и скоро человеку будет капчу сложней отгадать, чем компьютеру)
— появились «хитрые»/тематические капчи (например «посчитайте сколько будет» и какой-нибудь простой математический пример на картинке)
— …
В целом было даже время, когда некоторые капчти как раз теор-вером и раскрывались (заранее сгенерированные, ограниченного объёма, без исключения из списка после (удачной) попытки).
С тех пор появилось:
— появились механизмы генерации / исключения из списка капчей (повторно воспользоваться угаданной невозможно)
— появились различные графические преобразования (мешают распознанию простыми алгоритмами, но, как уже писал, алгоритмы на месте не стоят и скоро человеку будет капчу сложней отгадать, чем компьютеру)
— появились «хитрые»/тематические капчи (например «посчитайте сколько будет» и какой-нибудь простой математический пример на картинке)
— …
UFO just landed and posted this here
Покажите пример самых злых капч, прошедших естественный отбор! Заингтригован
Присоединяюсь к просьбе. Давайте сделаем эту ветку комментариев длинной и автор её заметит.
С прода потерли уже, но всегда есть письма благодарных пользователей, в которых они обогащают наш лексикон! Во всех случаях капча в поле ввода — неправильная.
46% русской Д чтоль?
Если так, то таких точно нельзя пускать на сайт
Если так, то таких точно нельзя пускать на сайт
Странно, вы каждый день ожидаете «режим аварийного полета»? Почему тогда не генерируете больше капчей?
День на день не приходится. Давным-давно один раз сделали и забыли на год. Режим аварийного полета сделали для дней адского наплыва пользователей. А сейчас популярности прибавилось и цифра которая тогда казалась достижимой только в экстраординарной ситуации стала ежедневной нормой. Прибавили конечно сейчас, когда пришлось опять к этому обратиться
Получается, если уровень становится опасным и резко зайдет 50 посетителей и капчи не успеют перегенерироваться — они просто закончатся?
Тогда случится страшное — юзеру придется ждать пока его капча сгенерируется. +200-300мс. Ощутимо.
А, т.е. в опасной ситуации генерируется не по крону, а в рантайме? Ну придется ждать ведь каждому следующему юзеру до глобальной генерации капч? История, конечно, у вас получилась интересная (можно целый сервис придумать для сложных капч :-), но не понятно почему не генерировать кроном, когда число до половины доходит, например, а не просто на каждый день?
Решили так не делать. Непонятно что будет если в час наибольшей нагрузки число капч опустится до уровня 50% и начнется регенерация (а это вставки в базу, что есть дорого). Генерация «на лету» по крайней мере пропорциональна нагрузке, а крон отожрет все что сможет и сделать ему приоритет пониже не факт что получится — проблема не только в процессоре, но, главным образом, в базе.
Ну генерировать то не сразу все 50%, просто пачками. Но мне непонятно откуда берется такая нагрузка на базу? Вы картинки туда сохраняете?
Если изначально вы не удаляли и никак не помечали показанные капчи, то как вы боролись с ситуацией, когда одна капча показывается двум пользователям, зашедшим приблизительно одновременно? Для пользователя который нажмет «отправить» вторым она окажется невалидной, потому что была удалена после того как ее отправил первый пользователь. Конечно при большем количестве капч это маловероятно, но при 50 очень даже возможно.
По-моему это очевидно, что удалять капчи нужно после показа независимо разгадана она или нет.
По-моему это очевидно, что удалять капчи нужно после показа независимо разгадана она или нет.
Согласен на 100%. Проблема то в том, что если она не разгадана, то не так-то просто это понять. Юзер (а тем более бот) вместо сабмита сомнительной капчи может уйти или запросить новую. Касаемо ситуации одновременных юзеров — скорее всего такое бывало, и не раз. Но бывало довольно редко и обновление страницы помогало, поэтому юзеры не жаловались. А сейчас все хуже было — у всех и обновление не помогает.
Если вы боитесь DDoS, то почему не боитесь что бот(ботнет) зайдет и будет запрашивать капчу, таким образом исчерпает ваш лимит, заставит сервер трудиться над генерацией кучи капч, попутно забивая мусором разделы? Я не знаю архитектуры вашего проекта, но мне кажется борясь с одной проблемой вы ее же и создаете только немного в другой реализации.
На 16 строчек текста 15 повторений слова «капча» в той или иной форме))
А разве нельзя сделать таблицу символов, чтобы и D и 0 и O воспринимались, как правильная буква?
Можно не сразу, а, например, если капча оказалась не отгаданной — добавляем ещё правильных вариантов в базу на основе таких подстановок. Соответственно, если она снова выпадет в следующий раз — бот будет уже более толерантен к «умеренно неправильным» ответам.
Можно не сразу, а, например, если капча оказалась не отгаданной — добавляем ещё правильных вариантов в базу на основе таких подстановок. Соответственно, если она снова выпадет в следующий раз — бот будет уже более толерантен к «умеренно неправильным» ответам.
А можно где-то посмотреть самые «злые» ваши капчи? Просто интересно! Спасибо!
Вам можно было написать перед капчей «The 'D' is silent»
По иронии прочитал тайтл как «Естественный отбор — враг боГа».
Hадо из генератора вообще убрать такие символы как D-O-0, 1-I, v-U
или настроить искажение так, чтоб человеку можно было что-то разобрать…
если я не разгадываю капчу со 2-го раза (на некоторых я не мог разгадать даже с 7-го, а иногда даже прошу совета у жены) — я просто ухожу с сайта.
Есть много достойных текстовых замен или двигать ползунки или крутить ручки.
или настроить искажение так, чтоб человеку можно было что-то разобрать…
если я не разгадываю капчу со 2-го раза (на некоторых я не мог разгадать даже с 7-го, а иногда даже прошу совета у жены) — я просто ухожу с сайта.
Есть много достойных текстовых замен или двигать ползунки или крутить ручки.
Sign up to leave a comment.
Естественный отбор — враг бота