Тест Тьюринга на основе реальных поисковых запросов в Яндексе

    Дело в том, что все (или почти все) поисковые запросы в Яндексе, пусть и в анонимизированном виде, в реальном времени доступны по адресу export.yandex.ru/last/last20x.xml

    На основе этого API я сделал маленький проект на Openresty (nginx + Lua + imagemagick), предоставляющий высокопроизводительную реализацию CAPTCHA.

    image

    Предусмотрена возможность встраивания в виде iframe.

    GitHub, demo

    image

    image

    Disclaimer


    Изображения могут содержать неприcтойные выражения.
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 74

      +2
      Хорошая идея!
        0
        Нескучная точно! :)
        +3
        Хм, а у меня 403я ошибка…
          +1
          +1
            +3
            Скопируйте ссылку, там стоит какая-то фильтрация по заголовку Referer. Долго мучался с настройками прокси в nginx, пока не понял что дело в этом.
            0
            Мне обновление помогло :) Не знал про такую «ленту», спасибо!
            +11
            CAPTCHA — это разновидность обратного теста Тьюринга.
              +2
              Прошел по ссылке, увидел такое:

              <item found="141371">медвежий фарш</item>


                +4
                Попозже вечером и не такое будет…
                  +3
                  <item found="75253">хенд хантер</item>
                  <item found="811420">"крутит" левую руку</item>
                  <item found="66841">вконе</item>
                  
                    +15
                    Помнится, лет 5+ назад проскакивало видео, где под музыку-рубилово в течение 5 минут показывался нефильтрованный прямой эфир Яндекса. Просмотр оставлял очень тяжелое чувство боли и обиды за окружающее общество.
                  • UFO just landed and posted this here
                      +2
                      Гости страны они такие.
                        +3
                        <item found="60">пельменемет</item>
                        

                        Оказывается и такое есть…
                        Смысл в обезличивании таких запросов, если по их содержимому можно и так получить: адреса, email, телефоны и многое другое.

                        <item found="461935">рублевское шоссе 36 корп ...</item>
                        <item found="171091">+380(50)657....</item>
                        <item found="35014">458.162.-.1-</item>
                        <item found="191493">e-mail: archi...@mail.ru</item>
                        <item found="48">gau-...@mail.ru</item> (email одного ген. директора)
                        <item found="69">dagteolog@mail.ru</item>
                        <item found="1061916">алекс.. ив... ,курск ... лет</item>
                        <item found="210129">Татьяна, 41 год, М... (название поселка)</item>
                        <item found="5822147">+7 932 421 .. ..</item>
                        

                        Часто встречаются email адрес людей, телефоны (частные).
                        • UFO just landed and posted this here
                            0
                            Пароли да, при том часто это не вина пользователя, а чистая случайность. Например не дожал Ctrl+V, и вставил в поисковую строку то, что было в буфере перед этим — пароль. Всё, утёк, даже «найти» нажимать не надо.
                              0
                              наверное писалось про Ctrl+C?
                                0
                                Да, конечно.
                            0
                            «Смысл в обезличивании» в том, что это не всегда емейлы и телефоны авторов запроса. Контент запросов нужно фильтровать отдельно.
                      0
                      Оффтоп, конечно, но судя по запросами, они фильтрованы. Никто не подскажет, есть ли где-нибудь нефильтрованый эфир? Или они его не предоставляют?
                        +2
                        Уже давно не предоставляют и не указывают в официальной статистике. О том что народ ищет тайно — стыдно и говорить…
                          +1
                          Так было всегда и будет всегда. Умных и успешных людей (миллиардеров, политиков, космонавтов, музыкантов и так далее) вроде бы около 3.5 процентов. Остальные быдло, либо из-за своих комплексов, привычек и (или) проблем не смогли пройти в это число. Думаю повысить этот процент можно, однако потом, если этим не заниматься, опять всё устаканится.
                            –5
                            Умных и успешных людей (миллиардеров, политиков, космонавтов, музыкантов и так далее) вроде бы около 3.5 процентов… Остальные быдло

                            Вы, я так понимаю, себя к умным и успешным относите?
                            А программистов в один ряд с космонавтами и музыкантами ставите? Вам-то наверное и порно в яндексе искать не нужно, достаточно в зеркало посмотреть
                              +4
                              Совсем нет :) Я пока далеко не успешен и умен, с горой недостатков. Так что пока что я скорее 95%. Результаты, кстати, отфильтрованные, однако благо просто посмотреть их мы все можем и выводы напрашиваются сами. Если вы всё ещё верите, что человеки хорошие, то я уже давно разочаровался, в том числе и на себе самом.
                                0
                                Если вы всё ещё верите, что человеки хорошие, то я уже давно разочаровался, в том числе и на себе самом.

                                А почему мы должны в это верить да еще и разочаровываться? Природу нужно воспринимать такой, какая она есть.

                                Притом что считать недостатком?
                                  +2
                                  Ну какой сколько людей, столько и мнений. Быть может я еще зеленый и глупый)
                              0
                              Умных и успешных людей (миллиардеров, политиков, космонавтов, музыкантов и так далее) вроде бы около 3.5 процентов

                              Не уверен что успех и разврат друг друга исключают. Периодически высплывают данные как тот или иной политик замешан в сексуальных домагательствах, развращении малолетних или даже обычном просмотре порносайтов на рабочем месте.
                                0
                                «Человек культурный» — феномен по определению искусственный.
                                Если лишить человека образования и воспитания, он опускается на уровень «ещё одного вида обезьян».
                                Поэтому вопрос скорее не «если всё пустить на самотёк», а «какая система распространения культуры и образования» установится силами активных членов общества и сопротивления остальных.
                                Осознание обществом ценности той или иной культуры вещь весьма относительная и субъективная, и кроме всего прочего замкнута на воспитание.
                                То есть, если увеличить процент осознанных граждан, не просто мотивированных, но и владеющих технологией повышения осознанности, осознанно выбирающих культурные ценности, возможно мы достигнем качественного скачка, после которого падение доли успешых и эффективных людей станет возможным лишь в результате разрушения защищаемой обществом и традициями инфраструктуры образования и воспитания.
                              0
                              На самом деле там всего ~12000 вариантов запросов крутится.
                                +1
                                Чуть подробнее, пожалуйста.
                                Как узнали, всегда или через какой-то промежуток времени обновляется?
                                  0
                                  «Грабил» поисковые фразы, для последующего составления семантического ядра.
                                  Скрипт крутился пару суток.
                                  Через несколько часов после старта итоговый файл с фразами увеличиваться перестал.

                                  Через какой промежуток обновляют — не могу сказать, не засекал.
                                +1
                                нашел вот такую вещь
                                http://livequeries-front.corba.yandex.net/queries/?ll1=41.17915089295261,20.867207593750013&ll2=55.63987388074816,47.278340406250024&limit=1000
                                собственно тут в параметрах строки можно задавать и диапазон.
                                Используется она самими Яндексовцами в прямом эфире
                                  0
                                  По идее ты можешь считывать значения из /dev/urandom или /dev/random своего сервера скриптом.
                                  0
                                  Не очень бы я обрадовался, если бы меня попросили ввести что-то вроде «СТЕЛС ЕСЛИ В БОЮ ВАНИШ МАКРОС» или «rfr ljk;yj yfhfcnfn, [ux», или упаси господь что-нибудь длиннее.
                                    0
                                    Для этого есть кнопка «обновить», которую даже в reCAPTCHA частенько приходится нажимать.
                                      +4
                                      В reCAPTCHA я это чаще делаю из-за того, что не могу разобрать, чего там написано. Хотя в последнее время мне чаще попадаются числа, что гораздо проще для восприятия, нежели «cl» или «d»
                                    0
                                    Только с третьего раза получилось верно. И я бы ещё сократил длину фразы.
                                      +10
                                      Надергал из яндекса за пару минут
                                      объектив ФЭД И-61Л\Д 2,8/53
                                      nhfycajhvfnjh nlv-401\380d
                                      USB\VID_07D1&PID_3C16
                                      6x+5y=3 3x+3y=4
                                      диагноз р2 б2z73.1.1, б9R461
                                      مصرية افراح اغاني شعبية
                                      0_o идея хорошая, но фильтровать нужно очень жестко, а то рекапча покажется детской игрушкой )
                                        0
                                        Меня порадовало «Патятливый»

                                        А вот выдача на «Смотреть блондинка в шоколаде» разочаровала…
                                        +5
                                        Идея отличная. Чем вводить очередные Leveclers Snemrilililibs, лучше уж что-то такое:
                                        самый лучший курятник фото
                                        рыжий шпиц фото
                                        где посылка
                                        кончаться огонь
                                        малолетние граждане это тесты
                                        как отбить бывшую девушку
                                        мыло ручной работы для чего
                                        деский возрост и хурма
                                        корень из 27

                                        (пардон, форматирование не вставилось)
                                          +7
                                            +7
                                            Это просто прекрасно, спасибо!
                                            дон камизи перевод
                                            что такое промокод
                                            как потеет бегемот
                                            почему я идиот

                                              +3
                                              вот тоже не плохо курнули
                                              техника машинного доения
                                              полимеры в авиастроении
                                              если человек не в настроении
                                              половые органы строение
                                              7 июня 2014, гроза
                                                +3
                                                Ну и романтики немного…
                                                кленовые листья раскраска
                                                упрямые женщины ласка
                                                поэма есенин
                                                плащ теплый осенний
                                                гармонь развеселая пляска
                                                • UFO just landed and posted this here
                                              +5
                                              Так вот откуда современная попса тексты берет…
                                                +2
                                                Огромное тебе спасибо, добрый человек! Ты просто сделал мой день :)
                                                Поэма
                                                тест на характер человека
                                                что подарить на новый год
                                                синоним к слову картотека
                                                а снег идет а снег идет
                                                енотовидная собака
                                                парфюм по знаку зодиака
                                                как увеличить капитал
                                                скачать владимирский централ
                                                пусть говорят официальный
                                                не плачь и жди меня домой
                                                стерилизатор паровой
                                                костюм джедая карнавальный
                                                картон асбестовый каон
                                                как затуманить задний фон

                                                  +3
                                                  Блин, ну вот так всегда. «О, идея! Составлять стихи из этой выдачи!». И спустя полтора часа кодинга повторно зайти в эту ветку коментприев и увидеть что дали ссылку на именно такой сервис…
                                                0
                                                А будет ли nginx работать в неблокирующем режиме, используя функции imagemagick?
                                                  0
                                                  imagemagick используется через FFI, никакие файлы при этом не читаются, так что да.
                                                  +1
                                                  Пришел к выводу, что я робот.
                                                    +1
                                                    А где можно почитать про это АПИ и какие условия пользования?
                                                    Если я буду его пользовать, то меня быстро забанят или не очень?
                                                    Я про АПИ яндекса конечно…
                                                      0
                                                      А для гугла такая же выборка есть? Хотел бы сравнить запросы аудитории mail.ru, google и яндекса.
                                                        0
                                                        Побочный эффект: эффективно отсеивается нерусскоязычная аудитория. Для кого-то это может быть важно.

                                                        Ещё, подозреваю, возможна timing attack (кстати, какой адекватный перевод этого термина на русский язык?).
                                                          0
                                                          атака по времени
                                                          0
                                                          С такой капчей ждите массового оттока посетителей. Можете даже A/B-тестирование провести
                                                            +9
                                                            Да не надо ничего проводить даже…
                                                            n\c

                                                            +2
                                                            Гадание по капче получило второе дыхание
                                                              0
                                                              Не понял. Т.е. бот может получить тот же список, и подставлять из крайне ограниченного числа вариантов перебором? =) Капча так не работает. Капча работает не так.
                                                                0
                                                                А разве количество попыток не ограничивают при вводе капчи? Просто опасть на пересечение двух рандомных фраз одного списка — шанс к нулю стремится.

                                                                Вру. Не к нулю. Если бот будет брутфорсить с одной и той же фразой — шанс велик.
                                                                +5
                                                                image

                                                                Извините, но вы меня не заставите вводить этот текст. Лучше уж 12-ти символьную капчу ввести./sarcasm>
                                                                  +1
                                                                  Еще вот такое есть: company.yandex.ru/researches/interes/
                                                                    +1
                                                                    Собственно оттуда же и берутся данные
                                                                    0
                                                                    так и вижу как ваш ребенок вводит: «негры гей порно», а потом спрашивает что всё это значит? :)
                                                                      0
                                                                      Кажется хаброэффект и компания Яндекс, читающая хабр, уже прикрыли эту интересную страничку
                                                                      image
                                                                        +1
                                                                        Там просто referer проверяется. Вставьте ссылку в адресную строку и зайдите так.
                                                                          0
                                                                          Хммм… Спасибо.
                                                                        +2
                                                                        Мне идея непонятна. Если это юмор, то не смешной. Матан-капча прикольней:
                                                                        image

                                                                        Если это для практической реализации, к чему тогда тут запросы к Яндексу? Взяли бы сочинения Пушкина, на строки побили бы и вывели для ввода.
                                                                          +1
                                                                          Считать человека круче компьютера в матане может и прикольно, но глупо.
                                                                          Сочинения Пушкина = известный словарь, а идея брать относительно случайные данные.
                                                                          0
                                                                          ссылку на яндекс укажите через https — https://export.yandex.ru/last/last20x.xml
                                                                            +1
                                                                            Ненавижу тех людей, которые ставят капчу на языке, написание которого отлично от латиницы. У меня на многих устройствах мало того, что нет русской клавиатуры, нет еще и поддержки ввода кириллицы. Задолбали, в общем. Не надо так!
                                                                            +1
                                                                            Эм…

                                                                            Only users with full accounts can post comments. Log in, please.