Comments 31
Ну то есть, блокировать сильно выгоднее, чем пресекать деятельность другими, более действенными, способами. ЧТД.
0
Судя по тому что слова "соль" и "соли" присутствуют на первой картинке словоформы не объединялись?
Что означает gtgt?
В каком контексте слово "доска" используется так часто на запрещенных сайтах?
Что означает gtgt?
В каком контексте слово "доска" используется так часто на запрещенных сайтах?
+2
Что кодирует цвет на первой диаграмме?
0
Не удержался, посмотрел контекст "израиля", все-таки популярная тема, входит в топ-100. Вот что там происходит:
сверхдержавы вотчины израиля
светозарным сынам израиля
святости величию израиля
святые земли израиля
севере израиля так
силу сыны израиля
+3
Распределение по странам не интересное. Это просто страны, в которых преставлен дешевый хостинг, часто с русской поддержкой.
+3
Великолепно. А теперь то же самое для образовательных учреждений. Правда дамп старый.
+1
46 доменов в зоне .ua должны бы иметь подтвержденных владельцев соответствующих торговых марок.
Если на этих 46 сайтах что-то достойное внесения в реестр, то найти виновника — не сверхзадача же.
Если на этих 46 сайтах что-то достойное внесения в реестр, то найти виновника — не сверхзадача же.
0
Таки не могу удержаться, простите.
Это что же получается, не навального блокируют с лурочкой, а самых что ни на есть наркобарыг, детское порно и юдофобскую пропаганду? Как же так!
Это что же получается, не навального блокируют с лурочкой, а самых что ни на есть наркобарыг, детское порно и юдофобскую пропаганду? Как же так!
+4
А толк в этом какой? Блокировка обходится в два клика и опыт рутрекера показал, что люди не тупые. .onion не заблокируешь, а там есть все и все доступно и в России и в Европе и в США.
ЦоПэ? Ну заблочили они их, а толку? Я всегда думал, что обществу и детям вредят те, кто его записывает, а не те, кто на голову пришиблен и качает его для просмотра. Плюс к этому еще ожидайте 100500 страниц с хентаем, новый закон у нас тут приняли.
Не, они конечно молодцы, что не только гитхаб блочат с луркой и википедией, но они пытаются бороться с виртуальным контентом, а оффлайновую войну выигрывать не хотят, вон недавно новость было про сотрудника ФСКН, оказавшегося барыгой. Такие дела. Грустно.
ЦоПэ? Ну заблочили они их, а толку? Я всегда думал, что обществу и детям вредят те, кто его записывает, а не те, кто на голову пришиблен и качает его для просмотра. Плюс к этому еще ожидайте 100500 страниц с хентаем, новый закон у нас тут приняли.
Не, они конечно молодцы, что не только гитхаб блочат с луркой и википедией, но они пытаются бороться с виртуальным контентом, а оффлайновую войну выигрывать не хотят, вон недавно новость было про сотрудника ФСКН, оказавшегося барыгой. Такие дела. Грустно.
0
А для какой задачи корпус создавали?
0
Скажите, столкнулись ли Вы с проблемой «странных» символов в URL? На чем парсили?
0
Что вы понимаете под «странными» символами? Покажите пример. Робот/парсер — всё своё.
0
Заменил домен на другой, дабы не публиковать запрещенной ссылки, например такая
"http://site.com/6175/%E6%84%9B%E3%81%A1%E3%82%83%E3%82%93%E3%81%A8%E3%83%94%E3%83%B3%E3%82%AF%E3%83%AB%E3%83%BC%E3%83%A02%20a04-3%20(riding).swf.html"
Можете в дампе посмотреть примеры по следующим id: 111882, 110894
Так же прохожусь по дампу питоновским скриптом, с некоторыми ссылками есть проблемы.
"http://site.com/6175/%E6%84%9B%E3%81%A1%E3%82%83%E3%82%93%E3%81%A8%E3%83%94%E3%83%B3%E3%82%AF%E3%83%AB%E3%83%BC%E3%83%A02%20a04-3%20(riding).swf.html"
Можете в дампе посмотреть примеры по следующим id: 111882, 110894
Так же прохожусь по дампу питоновским скриптом, с некоторыми ссылками есть проблемы.
0
Парсер хабра подсказывает отличное решение.
0
Это я изначально такую ссылку скинул, она так в дампе указана, в браузере это будет
http://site.com/6175/愛ちゃんとピンクルーム2 a04-3 (riding).swf.html
Встречаются много других интересных сочетаний символов "|" и т.д. При работе многих библиотек питона на этом вываливается ошибка:
UnicodeEncodeError: 'ascii' codec can't encode character…
Потому и спросил чем Вы парсили, может каким то образом кодировали ссылки.
У меня итогом ошибок стало 404, хотя оригинальная ссылка жива.
http://site.com/6175/愛ちゃんとピンクルーム2 a04-3 (riding).swf.html
Встречаются много других интересных сочетаний символов "|" и т.д. При работе многих библиотек питона на этом вываливается ошибка:
UnicodeEncodeError: 'ascii' codec can't encode character…
Потому и спросил чем Вы парсили, может каким то образом кодировали ссылки.
У меня итогом ошибок стало 404, хотя оригинальная ссылка жива.
0
0
Sign up to leave a comment.
Частотный словарь запрещённых сайтов