Pull to refresh

Comments 31

Ну то есть, блокировать сильно выгоднее, чем пресекать деятельность другими, более действенными, способами. ЧТД.
Судя по тому что слова "соль" и "соли" присутствуют на первой картинке словоформы не объединялись?
Что означает gtgt?
В каком контексте слово "доска" используется так часто на запрещенных сайтах?
Стемминг не делался.
Контекст gtgt:
bigger boobs gtgt
biggest thing gtgt
bioshock gifs gtgt

Контекст доски:
board доска опознаний
dating доска объявлений
надежный поставщик доска
gtgt — «Got to go to» Urbandictionary.com
Смещается по радуге от большего(фиолетовый) значения частоты употребления к меньшему(синий), аналогично размеру блоков.
А почему некоторые прямоугольники пустые? В правой части картинки.
Слова в них просто не влезли. Это Tableau.
Не удержался, посмотрел контекст "израиля", все-таки популярная тема, входит в топ-100. Вот что там происходит:
сверхдержавы вотчины израиля
светозарным сынам израиля
святости величию израиля
святые земли израиля
севере израиля так
силу сыны израиля
Распределение по странам не интересное. Это просто страны, в которых преставлен дешевый хостинг, часто с русской поддержкой.
Есть некоторые сомнения. Наркоту хостить — не от правообладателей бегать.
Мне кажется, хостить магазин по продаже наркотиков в США или Германии не самая удачная идея.
Ну и к примеру Япония с 772 сайтами немного удивительно
Это скорее всего CDN вроде Cloudflare или сервисы наподобие AWS.
Интересный список. 16 миллионов можно обойти довольно оперативно. По возможности стараемся оказывать помощь людям, занимающимся исследованиями в образовательных/общественно полезных целях. Если вам требуется решить конкретную задачу — пишите в личку.
Нет, задачи нет, простое любопытство
46 доменов в зоне .ua должны бы иметь подтвержденных владельцев соответствующих торговых марок.
Если на этих 46 сайтах что-то достойное внесения в реестр, то найти виновника — не сверхзадача же.
Для доменов второго уровня в зоне .ua торговая марка не нужна.
Пункт 3.2, хотя может быть отменили уже, я слышал о чём-то подобном.
Или если вы под 2м уровнем понимаете различные .*.ua тогда всё верно, но в статье .com.ua к примеру указан отдельным пунктом.
Не заметил, прошу прощения. Для доменов .ua торговая марка нужна по-прежнему.
Таки не могу удержаться, простите.
Это что же получается, не навального блокируют с лурочкой, а самых что ни на есть наркобарыг, детское порно и юдофобскую пропаганду? Как же так!
А толк в этом какой? Блокировка обходится в два клика и опыт рутрекера показал, что люди не тупые. .onion не заблокируешь, а там есть все и все доступно и в России и в Европе и в США.
ЦоПэ? Ну заблочили они их, а толку? Я всегда думал, что обществу и детям вредят те, кто его записывает, а не те, кто на голову пришиблен и качает его для просмотра. Плюс к этому еще ожидайте 100500 страниц с хентаем, новый закон у нас тут приняли.
Не, они конечно молодцы, что не только гитхаб блочат с луркой и википедией, но они пытаются бороться с виртуальным контентом, а оффлайновую войну выигрывать не хотят, вон недавно новость было про сотрудника ФСКН, оказавшегося барыгой. Такие дела. Грустно.
А для какой задачи корпус создавали?
Скажите, столкнулись ли Вы с проблемой «странных» символов в URL? На чем парсили?
Что вы понимаете под «странными» символами? Покажите пример. Робот/парсер — всё своё.
Заменил домен на другой, дабы не публиковать запрещенной ссылки, например такая
"http://site.com/6175/%E6%84%9B%E3%81%A1%E3%82%83%E3%82%93%E3%81%A8%E3%83%94%E3%83%B3%E3%82%AF%E3%83%AB%E3%83%BC%E3%83%A02%20a04-3%20(riding).swf.html"
Можете в дампе посмотреть примеры по следующим id: 111882, 110894
Так же прохожусь по дампу питоновским скриптом, с некоторыми ссылками есть проблемы.
Парсер хабра подсказывает отличное решение.
Это я изначально такую ссылку скинул, она так в дампе указана, в браузере это будет
http://site.com/6175/愛ちゃんとピンクルーム2 a04-3 (riding).swf.html
Встречаются много других интересных сочетаний символов "|" и т.д. При работе многих библиотек питона на этом вываливается ошибка:
UnicodeEncodeError: 'ascii' codec can't encode character…
Потому и спросил чем Вы парсили, может каким то образом кодировали ссылки.
У меня итогом ошибок стало 404, хотя оригинальная ссылка жива.
Используйте python3, там все строки в utf-8
к сожалению на сервере стоит 2 версия и скрипт может мигрировать на другие сервера, а ради него подготавливать окружение никто не будет
Sign up to leave a comment.

Articles