SlimRG Oct 9 2018 at 08:46

Как капчи рассказали об уязвимости Яндекса

2 min

12K

Information Security * Yandex API * Web analytics * Cloud services * Data storage *

From sandbox

+10

Comments 45

Eagle_NN Oct 9 2018 at 08:59

Проблема в том, что они в любой момент могут перегенерировать массив из капч. В результате для пользователя все будет выглядеть как обычно, а для примитивной распознавалки % результата снизится до 0.

SlimRG Oct 9 2018 at 09:09

Но за 2а года этого не

SlimRG Oct 9 2018 at 09:20

произошло!
Да и сомневаюсь, что произойдет.
С учётом того, что сейчас идёт новый вид капчи… Точнее антикапчи.
И к тому же, да

riky Oct 9 2018 at 15:55

когда заметят злоупотребления — прикроют.
особенно после вашей статьи.
там же вроде при регистрации почты ввод номера мобильного сейчас обязателен?

SlimRG Oct 9 2018 at 18:02

Там есть пункт — нет

SlimRG Oct 9 2018 at 18:03

номера

ambrozimikoni Oct 14 2018 at 09:17

там же вроде при регистрации почты ввод номера мобильного сейчас обязателен?

Нет.

SlimRG Oct 9 2018 at 09:27

и оперативностью Яндекс особо никогда не блистал

AngelNet Oct 9 2018 at 14:43

Они ею блещут, жаль в другом месте: а именно на поле борьбы с блокерами рекламы и скриптами для сокрытия яндекс-директа.
Порой код меняется раз в 1 час, вот уж куда они направляют силы сотрудников.

Intrinit Oct 9 2018 at 09:27

если от старости мои мозги еще не заржавели, то 76% дублей означают только то, что есть 24% оригинальных изображений. Вот если ты зальешь в базу эти оригиналы, то получишь ~100% распознавания (ну для сферической капчи в вакууме).Это я про то, что «76% распознавания» это некорректный подсчет шансов.

SlimRG Oct 9 2018 at 09:31

76% — это то, что программа удалила, т.е
Может, конечно, посчитано не верно, но если 76% точно имеют дубль в 24% то получим, что вероятность, что попадется дубль — 76%

maxys146 Oct 9 2018 at 14:28

Совершенно верно.
Если из 100к 76 удалены, то оригиналов 24к.
Если-бы программа по сливу капч работала чуть дольше, то скорее всего процент дублей был-бы намного больше. Но оригиналов останется так-же 24к.

Anton238 Oct 9 2018 at 09:58

Хорошо. Тогда зачем вы это пишете? Вы же собирались получить пару Tb дискового пространства, и вашим «врагом» была капча. Вы нашли способ, как ее обойти, и выложили его в сеть. Теперь этот способ прикроют, и вы не сможете получать Тб пространства.

ivan386 Oct 9 2018 at 10:15

Может автор за честную игру. Если исправят то будет новый уровень сложности. Там и фикс то простой.

SlimRG Oct 9 2018 at 11:17

Я же написал выше, что все действия, что я производил — были сделаны мною ИСКЛЮЧИТЕЛЬНО в исследовательских целях и почти без корыстных

iig Oct 9 2018 at 11:24

Автор не нашел способа обойти капчу, воще то. Он обнаружил возможность повторного использования результатов распознавания. А все потому, что картинки генеренные по словам из словаря.
Для эксплуатации уязвимости базу данных из 24к картинок надо еще распознать… И обидно будет, если она превратится в тыкву… А перегенерить картинки несложно.

ITurchenko Oct 9 2018 at 11:34

Для эксплуатации уязвимости базу данных из 24к картинок надо еще распознать

интернет называет цифру в 50-100р за распознавание 1000 капч
что для 24к картинок означает 1200-2400р общей стоимости

iig Oct 9 2018 at 11:45

Что для 100к картинок вызывает удорожание атаки в 4 раза.

Nordicx86 Oct 9 2018 at 12:47

те до 5000-10 000р. что сопоставимо с Бюджетом Простенькой DDoS атаки (порядка 90-100$)

SlimRG Oct 9 2018 at 12:58

1)Ну, перегенерить — они неперегенерили за 2а года, поэтому, вряд ли сделают это.

2) Данная статья создана НЕ для корыстных целей (а то сейчас набегут мамкины хацкеры), а для исследовательских целей (типа, как НЕ нужно делать)

iig Oct 9 2018 at 14:26

как НЕ нужно делать

Это да. Среди 100500 способов сделать велосипед они выбрали достаточно странный. Интересно, почему.

SlimRG Oct 9 2018 at 14:33

Потому, что:
1) Они используют кириллицу, а значит пилили с нуля
2) Они используют слова, а не набор букв (А значит они используют словарь)
3) Они отказываются потихоньку от капчи в пользу мобилок
4) Классическая политика Яндекс — сделать криво, но раньше Google

Что это нам дает:
1) Обновлений в капчу они делать не планируют (планировали, до этой статьи?)
2) Набор, который они смогли сгенерить — это все, что есть в некоем словаре

marperia Oct 9 2018 at 14:34

Извините, а зачем вам все 100к картинок? Там ведь написано: только четверть картинок оригинальные, то есть достаточно добавлять распознанные картинки в базу, а новые сравнивать на предмет схожести хэша изображения к базе.
Короче говоря, если у «Яндекса» всего 24к капч — то и атака на все их сервисы будет стоить 50-100*24000 рублей + время программиста.

SlimRG Oct 9 2018 at 14:36

Именно так я и сделал — сначало сравнение, если не найдено — Welcome по облако, а дальше уже распознается и добавляется…
Тфу, только время зря потратили…
По секрету скажу — там всего 26721 вид капчи и уже более года новых видов не поступало

iig Oct 9 2018 at 14:47

уже более года новых видов не поступало

Проект завершен, деньги потрачены, сотрудники ~~уволены~~ работают над другими задачами;)

marperia Oct 9 2018 at 14:56

Шутки-шутками, но причём тут деньги?
Сделать скрипт генерации каптч (ну не вручную же они их рисовали?) нужно один раз и запускать его ну, допустим, раз в месяц. Хотя лично мне кажется, что 24к картинок можно обновлять еженедельно без заметной нагрузки на сервера, а уж «Яндекс» может это делать хоть каждый день!

SlimRG Oct 9 2018 at 18:08

Я согласен с вами, но мне почему-то кажется, что они тупо взяли словарь и сделали капсулы по нему. Причем словарь типа Ушакова. А после тупо все забросили...

bano-notit Oct 9 2018 at 23:18

В оригинале капчи вообще должны генерироваться на каждого нового запрашивающего отдельно. С мощностями Яши можно было сделать 3d слова и генерить искажения прямо в потоке видео (я кажется придумал новый идиотский способ капчи). Но они так не сделали.

marperia Oct 10 2018 at 05:30

del

algotrader2013 Oct 9 2018 at 16:30

Понимаю, что задача решалась не ради выгоды, а ради решения самого по себе, но все же, интересно, а в чем практическая ценность хранения 100Тб данных с такими ограничениями?

Основная проблема, что чтобы не спалиться совсем уж по-детски, необходимо будет заходить каждый раз через прокси.

Если не шардить, то для эффективной работы с таким количеством данных необходимы очень быстрые прокси в больших количествах, и дешево (вряд ли это возможно законно). Думаю, что для человека, для которого это не проблема, есть и более легкие способы спрятать 100 Тб (например, на 2-3х чужих корпоративных СХД с жирными каналами в 10Г, втайне от их владельцев).

Если хорошо пошардить, то большой скорости на каждом логине не надо, но и Яндекс по паттерну использования очень быстро сможет эти аккаунты, которые вдруг все одновременно начинают читать/писать маленькие файлики равного объема, объединить у себя, и устроить санкции (к примеру, заблокировать один из них под предлогом подозрения на взлом, и предложить предоставить паспорт, или поставить скорость скачивания в 56к на все эти акки).

Тут можно возразить, что люди, которые используют базу из 24К капч, не смогут объединить по паттерну, но не забываем, что навести порядок в капчах = релиз с тестированием и выливкой на прод, который затрагивает много людей и приоритеты с роадмапами, а разовый сеанс датасаенса = 1-2 часа одного человека + немного времени операторов.

Понимаю, что фактор репликации > 1 (что тоже накладывает ограничение, так, как придется таки делать файлы бинарно разными, чтобы запалив 1 аккаунт, Яндекс не накрыл всю сеть сравнением хешей файлов, которое есть у Яндекса 100%, и используется для дедупликации).

Короче, гемора что-то совсем много)

SlimRG Oct 9 2018 at 17:57

Вы правы почти во всем.
Программа, которая разрабатывается эмулирует работу жесткого, но вы не учли некоторые моменты.
1) Для подключения к разным аккам можно использовать разные tor ip и получить хорошую скорость(я не стал пилить vpn, т.к. не уверен в их безопасности)
2) Часто используется склеивание секторов
И их удаление
3) Внутряняя скруктура некоторых секторов имеет схожесть с exel файлами
4) При файлообороте выше 2Gb требуется привязка к телефону, НО в отличается от регистрации она не реагирует на номера однодневки
5) Скорость работы низкая, из-за чего статьи по программе ещё

SlimRG Oct 9 2018 at 18:01

Чувство меня не возьмут работать в Яндекс, придется идти в Google :(

youlose Oct 10 2018 at 07:10

Может они просто кешируют их некоторое время, то есть следующий день уже будут другие 24 тысячи?

iig Oct 10 2018 at 07:37

Это вряд ли. Раз автор утверждает, что за год картинки не поменялись… Да и словарь это тоже несерьезно. Если словарь известен, то самая плохая самодельная распознавалка + подбор по словарю == очень хороший результат.
Думаю, это просто ~~солонка~~ капча для приличных людей, а не для хакеров.

SlimRG Oct 10 2018 at 10:45

Народ — народ, видимо кто-то из Яндекса все же посмотрели статью ^_^
В базу добавилось еще 12к картинок буквально с 10:35 по 11:42
Дальше все по старому :3

SlimRG Oct 13 2018 at 20:56

Да — дальше без изменений ^_^

UFO landed and left these words here

SlimRG Oct 14 2018 at 13:55

ВНИМАНИЕ! Информация, описанная ниже, написана исключительно в исследовательских целях и не предназначена для использования в корыстных целях!

ambrozimikoni Oct 14 2018 at 17:11

и не предназначена для использования в корыстных целях!

Самопиар — не корысть?

SlimRG Oct 14 2018 at 18:08

А где самопиар
Вы даже моего настоящего имени не знаете

ambrozimikoni Oct 16 2018 at 10:43

А где самопиар
Вы даже моего настоящего имени не знаете

Не зачем. Раскрутка же идет под интернет.
Для дальнейших контактов этого более чем достаточно.

SlimRG Oct 16 2018 at 21:31

Серьезно говоря — я Вас не понял.

Раскрутка же идет под интернет.

— т.е. я пиарю свое имя, которое на каждом проекте я использую разное, окееей.

Для дальнейших контактов этого более чем достаточно.

— Чего? Вот тут совсем не понял. Какие контакты, если я показал косяк Яндекса? В гугл — так у них все норм с их антикапчей, в яндекс — так я же не им эту статью написал и, как следствие, мне там тоже не шибко рады, в мэил — так те обезьянки пусть дальше об уязвимостях в лог пишут.

Так с кем я должен обменяться контактами?

SlimRG Oct 14 2018 at 13:57

И нет не проще — т.к. нужно платить,
Я решил проблему faster_rcnn_inception_resnet_v2
Быстро и бесплатно

UFO landed and left these words here

SlimRG Oct 14 2018 at 18:08

именно так