Comments 45
произошло!
Да и сомневаюсь, что произойдет.
С учётом того, что сейчас идёт новый вид капчи… Точнее антикапчи.
И к тому же, да
и оперативностью Яндекс особо никогда не блистал
76% — это то, что программа удалила, т.е
Может, конечно, посчитано не верно, но если 76% точно имеют дубль в 24% то получим, что вероятность, что попадется дубль — 76%
Если из 100к 76 удалены, то оригиналов 24к.
Если-бы программа по сливу капч работала чуть дольше, то скорее всего процент дублей был-бы намного больше. Но оригиналов останется так-же 24к.
Может автор за честную игру. Если исправят то будет новый уровень сложности. Там и фикс то простой.
Для эксплуатации уязвимости базу данных из 24к картинок надо еще распознать… И обидно будет, если она превратится в тыкву… А перегенерить картинки несложно.
Для эксплуатации уязвимости базу данных из 24к картинок надо еще распознать
интернет называет цифру в 50-100р за распознавание 1000 капч
что для 24к картинок означает 1200-2400р общей стоимости
1)Ну, перегенерить — они неперегенерили за 2а года, поэтому, вряд ли сделают это.
2) Данная статья создана НЕ для корыстных целей (а то сейчас набегут мамкины хацкеры), а для исследовательских целей (типа, как НЕ нужно делать)
как НЕ нужно делать
Это да. Среди 100500 способов сделать велосипед они выбрали достаточно странный. Интересно, почему.
1) Они используют кириллицу, а значит пилили с нуля
2) Они используют слова, а не набор букв (А значит они используют словарь)
3) Они отказываются потихоньку от капчи в пользу мобилок
4) Классическая политика Яндекс — сделать криво, но раньше Google
Что это нам дает:
1) Обновлений в капчу они делать не планируют (планировали, до этой статьи?)
2) Набор, который они смогли сгенерить — это все, что есть в некоем словаре
Короче говоря, если у «Яндекса» всего 24к капч — то и атака на все их сервисы будет стоить 50-100*24000 рублей + время программиста.
Тфу, только время зря потратили…
По секрету скажу — там всего 26721 вид капчи и уже более года новых видов не поступало
уже более года новых видов не поступало
Проект завершен, деньги потрачены, сотрудники
Сделать скрипт генерации каптч (ну не вручную же они их рисовали?) нужно один раз и запускать его ну, допустим, раз в месяц. Хотя лично мне кажется, что 24к картинок можно обновлять еженедельно без заметной нагрузки на сервера, а уж «Яндекс» может это делать хоть каждый день!
Я согласен с вами, но мне почему-то кажется, что они тупо взяли словарь и сделали капсулы по нему. Причем словарь типа Ушакова. А после тупо все забросили...
Основная проблема, что чтобы не спалиться совсем уж по-детски, необходимо будет заходить каждый раз через прокси.
Если не шардить, то для эффективной работы с таким количеством данных необходимы очень быстрые прокси в больших количествах, и дешево (вряд ли это возможно законно). Думаю, что для человека, для которого это не проблема, есть и более легкие способы спрятать 100 Тб (например, на 2-3х чужих корпоративных СХД с жирными каналами в 10Г, втайне от их владельцев).
Если хорошо пошардить, то большой скорости на каждом логине не надо, но и Яндекс по паттерну использования очень быстро сможет эти аккаунты, которые вдруг все одновременно начинают читать/писать маленькие файлики равного объема, объединить у себя, и устроить санкции (к примеру, заблокировать один из них под предлогом подозрения на взлом, и предложить предоставить паспорт, или поставить скорость скачивания в 56к на все эти акки).
Тут можно возразить, что люди, которые используют базу из 24К капч, не смогут объединить по паттерну, но не забываем, что навести порядок в капчах = релиз с тестированием и выливкой на прод, который затрагивает много людей и приоритеты с роадмапами, а разовый сеанс датасаенса = 1-2 часа одного человека + немного времени операторов.
Понимаю, что фактор репликации > 1 (что тоже накладывает ограничение, так, как придется таки делать файлы бинарно разными, чтобы запалив 1 аккаунт, Яндекс не накрыл всю сеть сравнением хешей файлов, которое есть у Яндекса 100%, и используется для дедупликации).
Короче, гемора что-то совсем много)
Вы правы почти во всем.
Программа, которая разрабатывается эмулирует работу жесткого, но вы не учли некоторые моменты.
1) Для подключения к разным аккам можно использовать разные tor ip и получить хорошую скорость(я не стал пилить vpn, т.к. не уверен в их безопасности)
2) Часто используется склеивание секторов
И их удаление
3) Внутряняя скруктура некоторых секторов имеет схожесть с exel файлами
4) При файлообороте выше 2Gb требуется привязка к телефону, НО в отличается от регистрации она не реагирует на номера однодневки
5) Скорость работы низкая, из-за чего статьи по программе ещё
Чувство меня не возьмут работать в Яндекс, придется идти в Google :(
ВНИМАНИЕ! Информация, описанная ниже, написана исключительно в исследовательских целях и не предназначена для использования в корыстных целях!
и не предназначена для использования в корыстных целях!
Самопиар — не корысть?
Вы даже моего настоящего имени не знаете
А где самопиар
Вы даже моего настоящего имени не знаете
Не зачем. Раскрутка же идет под интернет.
Для дальнейших контактов этого более чем достаточно.
Раскрутка же идет под интернет.— т.е. я пиарю свое имя, которое на каждом проекте я использую разное, окееей.
Для дальнейших контактов этого более чем достаточно.— Чего? Вот тут совсем не понял. Какие контакты, если я показал косяк Яндекса? В гугл — так у них все норм с их антикапчей, в яндекс — так я же не им эту статью написал и, как следствие, мне там тоже не шибко рады, в мэил — так те обезьянки пусть дальше об уязвимостях в лог пишут.
Так с кем я должен обменяться контактами?
Я решил проблему faster_rcnn_inception_resnet_v2
Быстро и бесплатно
Как капчи рассказали об уязвимости Яндекса