Частотный словарь запрещённых сайтов



    Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.


    Из открытых источников был получен список ссылок, находящихся в реестре на момент проведения исследования. Всего в списке 24515 ссылок.

    По каждому url мы делали get-запрос из страны, не имеющей законодательных ограничений на подобные деяния.

    Ответы серверов распределились следующим образом:



    Большинство сайтов вполне себе функционируют и переоценивать собственные взгляды на жизнь не собираются. Многие используют фаерволы, отсекая потенциально опасных (по их мнению) посетителей. Значительное количество просто ставит редирект на свежий белый домен.

    Пара слов об «абузоустойчивости». Взглянем на распределение по tld (только 200 OK):



    Не менее интересно распределение по странам, в которых физически находятся заблокированные ресурсы:





    Интерактивная визуализация словаря

    Статья не направлена на пропаганду чего-либо, а лишь отражает существующую реальность. Полученный материал, возможно, окажется полезным кому-либо для проведения собственных исследований.
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 31

      0
      Ну то есть, блокировать сильно выгоднее, чем пресекать деятельность другими, более действенными, способами. ЧТД.
        +2
        Судя по тому что слова "соль" и "соли" присутствуют на первой картинке словоформы не объединялись?
        Что означает gtgt?
        В каком контексте слово "доска" используется так часто на запрещенных сайтах?
          0
          Стемминг не делался.
          Контекст gtgt:
          bigger boobs gtgt
          biggest thing gtgt
          bioshock gifs gtgt

          Контекст доски:
          board доска опознаний
          dating доска объявлений
          надежный поставщик доска
            +1
            gtgt — «Got to go to» Urbandictionary.com
            0
            Что кодирует цвет на первой диаграмме?
              0
              Смещается по радуге от большего(фиолетовый) значения частоты употребления к меньшему(синий), аналогично размеру блоков.
                0
                А почему некоторые прямоугольники пустые? В правой части картинки.
                  0
                  Слова в них просто не влезли. Это Tableau.
              +3
              Не удержался, посмотрел контекст "израиля", все-таки популярная тема, входит в топ-100. Вот что там происходит:
              сверхдержавы вотчины израиля
              светозарным сынам израиля
              святости величию израиля
              святые земли израиля
              севере израиля так
              силу сыны израиля
                +3
                Распределение по странам не интересное. Это просто страны, в которых преставлен дешевый хостинг, часто с русской поддержкой.
                  0
                  Есть некоторые сомнения. Наркоту хостить — не от правообладателей бегать.
                    +1
                    Мне кажется, хостить магазин по продаже наркотиков в США или Германии не самая удачная идея.
                    Ну и к примеру Япония с 772 сайтами немного удивительно
                      0
                      Это скорее всего CDN вроде Cloudflare или сервисы наподобие AWS.
                    +1
                    Великолепно. А теперь то же самое для образовательных учреждений. Правда дамп старый.
                      0
                      Интересный список. 16 миллионов можно обойти довольно оперативно. По возможности стараемся оказывать помощь людям, занимающимся исследованиями в образовательных/общественно полезных целях. Если вам требуется решить конкретную задачу — пишите в личку.
                        0
                        Нет, задачи нет, простое любопытство
                      0
                      46 доменов в зоне .ua должны бы иметь подтвержденных владельцев соответствующих торговых марок.
                      Если на этих 46 сайтах что-то достойное внесения в реестр, то найти виновника — не сверхзадача же.
                        0
                        Для доменов второго уровня в зоне .ua торговая марка не нужна.
                          0
                          Пункт 3.2, хотя может быть отменили уже, я слышал о чём-то подобном.
                          Или если вы под 2м уровнем понимаете различные .*.ua тогда всё верно, но в статье .com.ua к примеру указан отдельным пунктом.
                            0
                            Не заметил, прошу прощения. Для доменов .ua торговая марка нужна по-прежнему.
                        +4
                        Таки не могу удержаться, простите.
                        Это что же получается, не навального блокируют с лурочкой, а самых что ни на есть наркобарыг, детское порно и юдофобскую пропаганду? Как же так!
                          0
                          А толк в этом какой? Блокировка обходится в два клика и опыт рутрекера показал, что люди не тупые. .onion не заблокируешь, а там есть все и все доступно и в России и в Европе и в США.
                          ЦоПэ? Ну заблочили они их, а толку? Я всегда думал, что обществу и детям вредят те, кто его записывает, а не те, кто на голову пришиблен и качает его для просмотра. Плюс к этому еще ожидайте 100500 страниц с хентаем, новый закон у нас тут приняли.
                          Не, они конечно молодцы, что не только гитхаб блочат с луркой и википедией, но они пытаются бороться с виртуальным контентом, а оффлайновую войну выигрывать не хотят, вон недавно новость было про сотрудника ФСКН, оказавшегося барыгой. Такие дела. Грустно.
                          0
                          А для какой задачи корпус создавали?
                            0
                            Скажите, столкнулись ли Вы с проблемой «странных» символов в URL? На чем парсили?
                              0
                              Что вы понимаете под «странными» символами? Покажите пример. Робот/парсер — всё своё.
                                0
                                Заменил домен на другой, дабы не публиковать запрещенной ссылки, например такая
                                "http://site.com/6175/%E6%84%9B%E3%81%A1%E3%82%83%E3%82%93%E3%81%A8%E3%83%94%E3%83%B3%E3%82%AF%E3%83%AB%E3%83%BC%E3%83%A02%20a04-3%20(riding).swf.html"
                                Можете в дампе посмотреть примеры по следующим id: 111882, 110894
                                Так же прохожусь по дампу питоновским скриптом, с некоторыми ссылками есть проблемы.
                                  0
                                  Парсер хабра подсказывает отличное решение.
                                    0
                                    Это я изначально такую ссылку скинул, она так в дампе указана, в браузере это будет
                                    http://site.com/6175/愛ちゃんとピンクルーム2 a04-3 (riding).swf.html
                                    Встречаются много других интересных сочетаний символов "|" и т.д. При работе многих библиотек питона на этом вываливается ошибка:
                                    UnicodeEncodeError: 'ascii' codec can't encode character…
                                    Потому и спросил чем Вы парсили, может каким то образом кодировали ссылки.
                                    У меня итогом ошибок стало 404, хотя оригинальная ссылка жива.
                                      0
                                      Используйте python3, там все строки в utf-8
                                        0
                                        к сожалению на сервере стоит 2 версия и скрипт может мигрировать на другие сервера, а ради него подготавливать окружение никто не будет
                                      0
                                      Продублировал, парсер съел пару символов:
                                      http://pastebin.com/sF1WTzME

                              Only users with full accounts can post comments. Log in, please.