daocrawler Oct 8 2016 at 17:05

Считаем порносайты, оцениваем эффективность Роскомнадзора

3 min

46K

Research and forecasts in IT *

+52

Comments 48

azsx Oct 8 2016 at 17:27

Так с чем это связано? Может адалт сайты умело прячут посещаемость от alexa или в адалт теме сложилась ситуация, как в социальных сетях (есть несколько гигантов и местечковые форумы с функциями соц. сетей)?

daocrawler Oct 8 2016 at 17:53

Алекса берет данные о посещаемости со своего тулбара, в основном. Люди ходят на сайты — тулбар отсылает стату, никакой магии. В миллион залететь достаточно просто, если у вас есть человек 50 в день — вы уже там. Такова реальность, Адалт контента не так много, как кажется. Думаю, если навести еще и контент аналитику хотя бы по описаниям роликов — то схлопнется еще больше.

UFO landed and left these words here

botaniQQQ Oct 8 2016 at 21:35

Скачки:
1 августа 2013 — РосКомНадзор обладает правом блокировать любой сайт в интернете;
1 мая 2014 — вступили в силу первые поправки;
ноябрь-декабрь 2015 — RuTracker и остальные сайты проводят плановые учения;
январь 2016 — RuTracker заблокирован.

Stiver Oct 9 2016 at 09:00

Первый скачок — это сентябрь 2013, учения на Флибусте.

Barafu Oct 8 2016 at 17:53

Ну а список-то дайте. Ну чтобы я сам проверил.

daocrawler Oct 8 2016 at 18:18

Мне не позволяет законодательство публиковать этот список. Хорошо, что какие-то хакеры опубликовали его в формате domain,rank,ip,country

Barafu Oct 8 2016 at 18:26

Вах, какой хороший он человек. Имею одно забавное предположение, сейчас навострю crawl-бота, проверю.

Jogger Oct 8 2016 at 20:05

как-то не очень показательно. два самых рейтинговых сайта — reddit и
imgur. Хотя на них наверняка есть порно-контент я бы не назвал их порносайтами в полном смысле этого слова…

mxms Oct 8 2016 at 21:57

japancar.ru? вот уж истинная порнуха! :-D

datacompboy Oct 8 2016 at 20:59

tblop.com недостаточно?

AntiForeZz Oct 8 2016 at 18:19

Пользуясь случаем хочу попросить у роскомнадзора: можно ли на сайте reestr.rublacklist.net сделать разделение на категории, ибо искать нужные сайты не очень удобно, добавить краткое описание к блокируемому сайту (потому что название домена не всегда информативное), и добавить прямые линки, в конце концов.

mxms Oct 8 2016 at 18:50

Полностью поддерживаю. Это будет каталог по-настоящему интересных сайтов, которые следует обязательно посетить!

vc54 Oct 9 2016 at 03:07

Похоже будет многомиллионный тендер)))

Melanxolik Oct 9 2016 at 07:33

А возможность лайкать и комментарии пользователей вам не интересны?

vabolshakov Oct 9 2016 at 13:48

может какой-нить плагин для браузера написать, чтобы хотя бы прямые ссылки были?

Toxoed Oct 9 2016 at 22:01

Array.prototype.slice.call(document.querySelectorAll('a')).filter(link => link.innerText.startsWith('http')).map(link => link.href = link.innerText)

DrPass Oct 8 2016 at 18:24

> Думаем, что можно считать эту цифру за показатель эффективности истребления государством
> контента для взрослых на данный момент.
А скоро на подготовке госбюджета на очередной год руководство Роскомнадзора будет говорить: «Мы с нынешними ресурсами в состоянии заблокировать лишь 2.54% порносайтов. Требуем увеличения бюджета нашей конторы в 40 раз!»

Nulliusinverba Oct 8 2016 at 19:24

взываю к Temych

Nulliusinverba Oct 8 2016 at 19:30

пардон, не в ту ветку, это был ответ AntiForeZz

pewpew Oct 8 2016 at 19:38

А разве они не с террористами и педофилами боролись? Или они порносайты за экстремизм банят?

areht Oct 8 2016 at 20:11

террористы смотрят порн

JediPhilosopher Oct 8 2016 at 22:22

Распространение любого порно в РФ вне закона, даже обычного. Просто всем как всегда пофиг было до недавнего времени.

UFO landed and left these words here

Ravebinovich Oct 9 2016 at 07:31

Т.е. какой-нибудь кинотеатр может купить лицензию на прокат и запустить на большом экране клубничку?

UFO landed and left these words here

AAT666 Oct 9 2016 at 07:31

...#РКН очень любит повторять, что они всего лишь — исполнительный орган. И, якобы, сами по своей воле ничего не могут заблокировать. Только по решению суда. Будет решение — и они «заблокируют» хоть CNN, хоть National Geographic.

rPman Oct 8 2016 at 19:50

Почему вы складываете рейтинг? О_о
Вы лучшем случае его можно перемножать (проценты от максимума) и всеравно получится каша из смыслов.

daocrawler Oct 8 2016 at 20:13

Давайте я объясню.

У вас есть некоторое количество сущностей, равномерно распределенных в зависимости от количества трафика на них, с порядковым номером от 1 до 1,000,000. Чем меньше значение, тем больше трафика. Действительно, в таком случае нет смысла складывать рейтинг, поэтому мы «переворачиваем» список отнимая от значения рейтинга 1,000,000 (по количеству сущностей), получаем отрицательное значение, которое по модулю будет соответствовать уже весу рейтинга (с небольшим сдвигом на единичку у сайта с последнего миллионного места, у него будет 0), итого получаем тот же список доменов в том же порядке, но со значением, которое можно складывать, т.к. оно уже спускается со 999999 (гугл со своим первым местом) до 0 для сайта на последнем месте из миллиона.

Если же вы имели в виду подсчет общей суммы рейтинга, то её все-равно как считать, у вас в любом случае натуральный ряд.

LoadRunner Oct 8 2016 at 21:07

Эти подсчёты имеют смысл при равномерном распределении трафика.
А если, к примеру, у Гугла посещаемость в 8 миллиардов уникальных посетителей в сутки, а у второго места миллион и далее по списку на одного посетителя меньше — тут уже нет равномерного распределения.

BkmzSpb Oct 9 2016 at 11:31

Присоединяюсь, если я правильно понял, то вес поределяется примерно как 1 000 000 — rating, который дает 999 999 гуглу и 1 тому подозрительному сайту на последнем месте. По факту это линейная зависимость и выглядит это мягко говоря неправдоподобно. Гораздо логичнее было бы задать веса экспоненциальной функцией, можно отнормировать на гугл так что p(Google) = 1. Остается прикинуть, на сколько порядков меньше трафик последнего сайта по отношению к гуглу — и вуаля, веса построены. Не факт правда, что исправление весов сильно поменяет картину, может быть разнциа будет в 2-4 раза больше/меньше суммарного трафика, чем заявлено в статье, но сути это не поменяет.

P.S.: я имею ввиду функцию типа exp(ax + b), a < 0, x = pos in rating. Для определения a и b достаточно двух значений трафика (при условии, что распределение трафика действительно экспоненциальное).

daocrawler Oct 9 2016 at 11:35

Какая разница, у вас все-равно нет ничего кроме рейтинга. Вес мы раздаем только для того, чтобы можно было работать с «суммой рейтинга» группы сайтов. Эта сумма дает значения только в рамках рейтинга Алексы и того распределения по миллиону, которое она нам однозначно отдает. Можно строить любые предположения относительно трафика, придумывать экспоненциальные функции, но все это прохладные истории.

caveeagle Oct 8 2016 at 21:52

Жаль, нам неизвестно рспределение.
Я бы предположил немного другое распределение, как более вероятное. Каждый следующий в два раза меньше, чем предыдущий. То есть, первое место — х, второе — х/2, третье — х/4… Но это лишь предположения.

klirichek Oct 10 2016 at 03:16

"Чем меньше — тем больше" — это всё же не вычесть значение из какого-то максимума, а честно взять обратное. Т.е. поделить константу на рейтинг. А вычитание, хоть и выглядит "похоже", но всё же даёт порой совсем странные результаты.

Idot Oct 8 2016 at 20:12

Надеюсь Медведев эту статью не увидит.

crea7or Oct 8 2016 at 20:38

Вы что, серьёзно? Найдите хоть одного пользователя в РФ с тулбаром Алексы. А если всё же найдёте — посчтитайте проценты. Да можно и не только РФ — весь мир давно забыл про Алексу. Они там впаривают математику, а не реальный рейтинг.

daocrawler Oct 8 2016 at 20:50

Вы понятия не имеете о том, что говорите.

vabolshakov Oct 9 2016 at 13:52

А можете в кратце пояснить? Буду благодарен.

daocrawler Oct 9 2016 at 14:24

Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.

ikbrain Oct 8 2016 at 21:49

>поднялся хайп вокруг адалт контента
*тяжёлый, немного нервный вздох*

UFO landed and left these words here

maxpsyhos Oct 9 2016 at 05:51

Скорее всего, это не «безопасный поиск», а «поиск по безопасным словам». То есть тупо наличие определённых ключевых слов, которые косвенно указывают, что там может быть порно. Или даже просто игнорирование по словарю некоторых ключевых слов в поисковой строке, то есть вы пишите «порно видео», а он ищет просто «видео».
А потом кто-то во власти смотрит, что такая галочка вроде как работает, и думает, будто Вконтакт 100% знает о содержании каждого ролика и просто из вредности ничего не предпринимает.

cheshirrrr Oct 10 2016 at 07:52

Там точно не «поиск по безопасным словам». Даже если вы введете какое-нибудь безопасное слово(например какое-нибудь обычное и ничем непримечательное женское имя), то есть большой шанс, что сняв галочку «безопасный поиск» вы получите все что там есть. Правда иногда фильтр не срабатывает и оно проскакивает в результатах даже с включенным безопасным поиском.

Assada Oct 10 2016 at 09:46

Скорее всего дело в описании и авторе видео(возможно видео загрузили от имени группы 18+). Но это галочка 100% работает со стоп словами

DrPass Oct 9 2016 at 14:09

> Что ему мешает своими силами навести там «порядок»?
Кто ж ими тогда пользоваться будет?

DayLike Oct 9 2016 at 22:11

Нет чтоб галочку убрать вообще, зачем она там вообще нужна????? Потом пройтись со словарём по базе и del всю эту мерзость, да и то тенденция какого то разложения в роликах которые там есть и что по телевизору показывают, какая то деградация и запустение а не развитие.
Вот как бы вы растили своих детей в таких условиях?
Я бы например сделал защиту которая блокирует всё даже намёк (кстати уже тестировал и работает) на всякую мерзость и не нужность, сделал бы интернет действительно нужной вещью, действительно информационной технологией для получения информации, реально нужной информации которая реально поможет в становлении личности и образовательного фундамента человека для того чтобы он мог развиваться, помогать другим и быть полезным не только своим родным но и множеству других людей. А как найти нормально что то в интернете когда там битком непонятно чего это как пройти мега квест аля: «Ну давай попробуй найти то, что ты действительно ищешь и не нарваться на ненужный хлам или не на враньё или заблуждение».

argz Oct 11 2016 at 10:47

Не надо перекладывать на интернет обязанности по воспитанию собственных детей.

UFO landed and left these words here