Считаем порносайты, оцениваем эффективность Роскомнадзора



    Вся история началась с достаточно бурного обсуждения процентного соотношения порно vs. всё остальное. Дискуссия плавно переросла в тотализатор. Кто называет цифру ближе всего к «реальной», тот и в дамках. Ставки сделаны, ставок больше нет.

    Как и где?


    Оставалось выяснить «реальный» показатель. Заранее были определены критерии и выборка, в рамках которой требовалось провести исследование. Достаточным критерием, по мнению большинства участников специальной олимпиады, явилась простая регулярка на слово porn в контенте + несколько едких словечек (все мы их знаем). Выборкой взяли топ 1,000,000. Несмотря на то, что доменов в интернете ~400кк, Алекса довольно чётко выделяет тех, у кого есть хоть какой-нибудь трафик.

    Зарядили краулер, понеслась. Замечу, что участники тотализатора гуглить не пытались, основания не доверять кому-либо нет, тема деликатная, да и, правда, интересно же, сколько? А может оно того, его всё меньше и пора качать?

    Всех уделал сишник


    Он со ставкой в 2,9% оказался ближе всех к полученным значениям. Мы нашли 26044 порника (2,6%) из миллиона топовых доменов (на 04.07.2016). Признаться, цифра многих удивила, разбег в предсказаниях был не малый, верхнюю планку давали на уровне 35%. Полезли гуглить, нашли статью с исследованием от Forbes за 2011 год, с цифрой в ~4%, что косвенно подтвердило адекватность полученных результатов. Но, неужели падает?

    Динамика


    Подошли ответственно, держали регулярку почти 3 месяца, следили за динамикой. Пока следили, спалили падение крупной сетки (кто-то жёстко заабузил хостера). Падение вы можете заметить на графике 4 августа, ~2000 сайтов ушло в даун, но уже 5 числа ребята восстановились и продолжают доставлять контент по сей день, без единого разрыва. Порносайты стабильно отжирают свою долю: за 3 месяца с 2,6% по 3,3% (33147)

    Что там Роскомнадзор?


    Как раз под завершение нашего исследования поднялся хайп вокруг адалт контента, заводилой которого явился всеми любимый Роскомнадзор, поблокировавший особенно популярные сайты.

    Джойним базу заблокированных сайтов (спасибо Роскомсвободе) на полученный нами список порников, получаем 626 доменов. Это 1,88% от всех сайтов, которые мы определили как грязные, развратные.

    Хочется понять, какую долю контента блочит государство не по количеству доменов, а по их значимости. Вдруг все эти 626 доменов агрегируют 90% трафика и пользователи вынуждены искать замену среди менее качественных продуктов. Данных по трафику у нас нет, но есть рейтинг Алексы, где:

    1. Google


    999999. Qoranona.com (цитирую: «Сладкая жизнь слушаться Бога», всё на арабском, выручил гугл-переводчик).

    Забавное совпадение, топ 1, никак не связанный с религией, помогает доносить информацию религиозному сайту с последнего места в массы. Если что, я не пытаюсь оскорбить чувства верующих, я о технологиях фактами. Является ли этот сайт экстремистским определить возможности не имею, так что заходить на него никому не советую (на всякий случай).

    Так вот, о рейтинге


    Чтобы приблизительно оценить долю трафика сайтов, которые поблочил Роскомнадзор, раздадим им веса. Для простоты подсчета отнимем у всего списка от значения рейтинга 1,000,000 и возьмем по модулю, т.е.:

    Google, как самый посещаемый сайт нам даёт 999999 очков на барабане, а Qoranona.com — всего 1.

    Общую сумму весов для списка считаем как сумму натурального ряда, она у нас = 500000500000

    Сумма весов сайтов (33147 домена на последний день скана), которые мы определили как порники = 18096750838 (3,6% от суммы всего списка, при 3,3% по количеству занимаемых доменов)

    Сумма весов 626 доменов, которые были заблокированы = 460251373, что составляет 2,54% от общей суммы весов порносайтов (при 1,88% по количеству доменов). Думаем, что можно считать эту цифру за показатель эффективности истребления государством контента для взрослых на данный момент.

    UPD: интерактивный график для удобства просмотра выложили здесь
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 48

      +1
      Так с чем это связано? Может адалт сайты умело прячут посещаемость от alexa или в адалт теме сложилась ситуация, как в социальных сетях (есть несколько гигантов и местечковые форумы с функциями соц. сетей)?
        0
        Алекса берет данные о посещаемости со своего тулбара, в основном. Люди ходят на сайты — тулбар отсылает стату, никакой магии. В миллион залететь достаточно просто, если у вас есть человек 50 в день — вы уже там. Такова реальность, Адалт контента не так много, как кажется. Думаю, если навести еще и контент аналитику хотя бы по описаниям роликов — то схлопнется еще больше.
        +11
        Если бы Роскомнадзора не существовало, то его следовало бы выдумать.

        Разве это не прекрасно:


        https://metrics.torproject.org/userstats-relay-country.html?start=2012-07-10&end=2016-10-08&country=ru&events=off
          +5
          Скачки:
          1 августа 2013 — РосКомНадзор обладает правом блокировать любой сайт в интернете;
          1 мая 2014 — вступили в силу первые поправки;
          ноябрь-декабрь 2015 — RuTracker и остальные сайты проводят плановые учения;
          январь 2016 — RuTracker заблокирован.
            +1
            Первый скачок — это сентябрь 2013, учения на Флибусте.
          +9

          Ну а список-то дайте. Ну чтобы я сам проверил.

            +24
            Мне не позволяет законодательство публиковать этот список. Хорошо, что какие-то хакеры опубликовали его в формате domain,rank,ip,country

              +1

              Вах, какой хороший он человек. Имею одно забавное предположение, сейчас навострю crawl-бота, проверю.

                +2
                как-то не очень показательно. два самых рейтинговых сайта — reddit и
                imgur. Хотя на них наверняка есть порно-контент я бы не назвал их порносайтами в полном смысле этого слова…
                  +1
                  japancar.ru? вот уж истинная порнуха! :-D
                  +1
                  tblop.com недостаточно?
                  +29
                  Пользуясь случаем хочу попросить у роскомнадзора: можно ли на сайте reestr.rublacklist.net сделать разделение на категории, ибо искать нужные сайты не очень удобно, добавить краткое описание к блокируемому сайту (потому что название домена не всегда информативное), и добавить прямые линки, в конце концов.
                    +13
                    Полностью поддерживаю. Это будет каталог по-настоящему интересных сайтов, которые следует обязательно посетить!
                      0
                      Похоже будет многомиллионный тендер)))
                        +5
                        А возможность лайкать и комментарии пользователей вам не интересны?
                          +1
                          может какой-нить плагин для браузера написать, чтобы хотя бы прямые ссылки были?
                            0
                            Array.prototype.slice.call(document.querySelectorAll('a')).filter(link => link.innerText.startsWith('http')).map(link => link.href = link.innerText)
                            
                          +4
                          > Думаем, что можно считать эту цифру за показатель эффективности истребления государством
                          > контента для взрослых на данный момент.
                          А скоро на подготовке госбюджета на очередной год руководство Роскомнадзора будет говорить: «Мы с нынешними ресурсами в состоянии заблокировать лишь 2.54% порносайтов. Требуем увеличения бюджета нашей конторы в 40 раз!»
                            0
                            взываю к Temych
                              +1
                              пардон, не в ту ветку, это был ответ AntiForeZz
                                +3
                                А разве они не с террористами и педофилами боролись? Или они порносайты за экстремизм банят?
                                  +8
                                  террористы смотрят порн
                                    0
                                    Распространение любого порно в РФ вне закона, даже обычного. Просто всем как всегда пофиг было до недавнего времени.
                                      0
                                      Нельзя сказать что запрещено совсем. Запрещено незаконное порно.

                                      Некоторые порнофильмы все-таки есть в списке минкульта и имеют прокатное удостоверение, в том числе произведенные в РФ. Но не понятно кто выдает разрешения на съемку этих фильмов, а так же как они попадают туда.
                                        0
                                        Т.е. какой-нибудь кинотеатр может купить лицензию на прокат и запустить на большом экране клубничку?
                                          +1
                                          Если обеспечит присутствие 18+, по идее может, почему нет. Вроде даже на кабельных каналах крутят клубничку.

                                          Всё дело в денежках. Очевидно, что запрет конкурентов продавили те, кто на этом делают денежки в России. Отрежут людей от интернет-порно и будут им продавать кабельное или на сертифицированных сайтах с входом через ЭЦП (и логгированием в досье, на всякий случай).
                                      0
                                      ...#РКН очень любит повторять, что они всего лишь — исполнительный орган. И, якобы, сами по своей воле ничего не могут заблокировать. Только по решению суда. Будет решение — и они «заблокируют» хоть CNN, хоть National Geographic.
                                      0
                                      Почему вы складываете рейтинг? О_о
                                      Вы лучшем случае его можно перемножать (проценты от максимума) и всеравно получится каша из смыслов.
                                        0
                                        Давайте я объясню.

                                        У вас есть некоторое количество сущностей, равномерно распределенных в зависимости от количества трафика на них, с порядковым номером от 1 до 1,000,000. Чем меньше значение, тем больше трафика. Действительно, в таком случае нет смысла складывать рейтинг, поэтому мы «переворачиваем» список отнимая от значения рейтинга 1,000,000 (по количеству сущностей), получаем отрицательное значение, которое по модулю будет соответствовать уже весу рейтинга (с небольшим сдвигом на единичку у сайта с последнего миллионного места, у него будет 0), итого получаем тот же список доменов в том же порядке, но со значением, которое можно складывать, т.к. оно уже спускается со 999999 (гугл со своим первым местом) до 0 для сайта на последнем месте из миллиона.

                                        Если же вы имели в виду подсчет общей суммы рейтинга, то её все-равно как считать, у вас в любом случае натуральный ряд.
                                          0
                                          Эти подсчёты имеют смысл при равномерном распределении трафика.
                                          А если, к примеру, у Гугла посещаемость в 8 миллиардов уникальных посетителей в сутки, а у второго места миллион и далее по списку на одного посетителя меньше — тут уже нет равномерного распределения.
                                            0
                                            Присоединяюсь, если я правильно понял, то вес поределяется примерно как 1 000 000 — rating, который дает 999 999 гуглу и 1 тому подозрительному сайту на последнем месте. По факту это линейная зависимость и выглядит это мягко говоря неправдоподобно. Гораздо логичнее было бы задать веса экспоненциальной функцией, можно отнормировать на гугл так что p(Google) = 1. Остается прикинуть, на сколько порядков меньше трафик последнего сайта по отношению к гуглу — и вуаля, веса построены. Не факт правда, что исправление весов сильно поменяет картину, может быть разнциа будет в 2-4 раза больше/меньше суммарного трафика, чем заявлено в статье, но сути это не поменяет.

                                            P.S.: я имею ввиду функцию типа exp(ax + b), a < 0, x = pos in rating. Для определения a и b достаточно двух значений трафика (при условии, что распределение трафика действительно экспоненциальное).
                                              0
                                              Какая разница, у вас все-равно нет ничего кроме рейтинга. Вес мы раздаем только для того, чтобы можно было работать с «суммой рейтинга» группы сайтов. Эта сумма дает значения только в рамках рейтинга Алексы и того распределения по миллиону, которое она нам однозначно отдает. Можно строить любые предположения относительно трафика, придумывать экспоненциальные функции, но все это прохладные истории.
                                            0
                                            Жаль, нам неизвестно рспределение.
                                            Я бы предположил немного другое распределение, как более вероятное. Каждый следующий в два раза меньше, чем предыдущий. То есть, первое место — х, второе — х/2, третье — х/4… Но это лишь предположения.
                                              0

                                              "Чем меньше — тем больше" — это всё же не вычесть значение из какого-то максимума, а честно взять обратное. Т.е. поделить константу на рейтинг. А вычитание, хоть и выглядит "похоже", но всё же даёт порой совсем странные результаты.

                                            0
                                            Надеюсь Медведев эту статью не увидит.
                                              –2
                                              Вы что, серьёзно? Найдите хоть одного пользователя в РФ с тулбаром Алексы. А если всё же найдёте — посчтитайте проценты. Да можно и не только РФ — весь мир давно забыл про Алексу. Они там впаривают математику, а не реальный рейтинг.
                                                +3
                                                Вы понятия не имеете о том, что говорите.
                                                  +1
                                                  А можете в кратце пояснить? Буду благодарен.
                                                    +4
                                                    Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.
                                                +1
                                                >поднялся хайп вокруг адалт контента
                                                *тяжёлый, немного нервный вздох*
                                                • UFO just landed and posted this here
                                                    0
                                                    Скорее всего, это не «безопасный поиск», а «поиск по безопасным словам». То есть тупо наличие определённых ключевых слов, которые косвенно указывают, что там может быть порно. Или даже просто игнорирование по словарю некоторых ключевых слов в поисковой строке, то есть вы пишите «порно видео», а он ищет просто «видео».
                                                    А потом кто-то во власти смотрит, что такая галочка вроде как работает, и думает, будто Вконтакт 100% знает о содержании каждого ролика и просто из вредности ничего не предпринимает.
                                                      0
                                                      Там точно не «поиск по безопасным словам». Даже если вы введете какое-нибудь безопасное слово(например какое-нибудь обычное и ничем непримечательное женское имя), то есть большой шанс, что сняв галочку «безопасный поиск» вы получите все что там есть. Правда иногда фильтр не срабатывает и оно проскакивает в результатах даже с включенным безопасным поиском.
                                                        0
                                                        Скорее всего дело в описании и авторе видео(возможно видео загрузили от имени группы 18+). Но это галочка 100% работает со стоп словами
                                                      +2
                                                      > Что ему мешает своими силами навести там «порядок»?
                                                      Кто ж ими тогда пользоваться будет?
                                                        –3
                                                        Нет чтоб галочку убрать вообще, зачем она там вообще нужна????? Потом пройтись со словарём по базе и del всю эту мерзость, да и то тенденция какого то разложения в роликах которые там есть и что по телевизору показывают, какая то деградация и запустение а не развитие.
                                                        Вот как бы вы растили своих детей в таких условиях?
                                                        Я бы например сделал защиту которая блокирует всё даже намёк (кстати уже тестировал и работает) на всякую мерзость и не нужность, сделал бы интернет действительно нужной вещью, действительно информационной технологией для получения информации, реально нужной информации которая реально поможет в становлении личности и образовательного фундамента человека для того чтобы он мог развиваться, помогать другим и быть полезным не только своим родным но и множеству других людей. А как найти нормально что то в интернете когда там битком непонятно чего это как пройти мега квест аля: «Ну давай попробуй найти то, что ты действительно ищешь и не нарваться на ненужный хлам или не на враньё или заблуждение».
                                                          +3
                                                          Не надо перекладывать на интернет обязанности по воспитанию собственных детей.
                                                      • UFO just landed and posted this here

                                                        Only users with full accounts can post comments. Log in, please.