Pull to refresh
40
0
Gordon Freeman @daocrawler

Информационные системы

Send message
В каком секторе, о каком потоке вы говорите, откуда данные? Еще раз повторяю, мы срезаем все, что написали сайты (паблишеры), а не юзеры.
Вы невнимательны. Выборка обозначена в самом начале. В рамках данной статьи мы срезаем все сайты мира, на которые заходит более 500 человек в день (их получается чуть больше миллиона). Краулер проходит каждый день по морде и срезает контент. Далее выделяем тексты и считаем в них упоминания интересующих сущностей. Динамику по количеству упоминаний — визуализировали. Что значит СМИ, какие 5%, от чего, о каких сообщениях вы говорите? Мы сайты исследуем. Все русские сайты с трафиком присутствуют в топ 1м, глазами список Алексы посмотрите. Английские тоже обсчитываются statoperator.com/#data=putin

Это история о том, какие данные из веб-корпуса можно намайнить выполняя 1,000,000 mapreduce операций ежедневно. Вы спрашивали о словах: ~100,000,000 в срезе.

Топ 1М сайтов мира, ежедневно
Динамика упоминаний Volvo в связи с подписанием соглашения. Volvo умеет в PR
image

Если говорить о текущем моменте, простых механизмов ограничения доступа (в том числе юридически-правового характера) в большинстве случаев достаточно для того, чтобы усложнить доступ пользователей к противоправному контенту
Технических — да, с механизмами юридически-правового характера — беда (в РФ), имели некоторый опыт.
Все правильно, по Y расположено количество упоминаний. Но что вам мешает вывести количество упоминаний на русском языке, английском и сравнить?
На выходе у вас получаются графики активности политика в разных языковых сегментах.

На примере Захаровой: произошло что-то, она делает заявление, и заявление такое сильное вроде бы, ух мы кому-то что-то там покажем (ей по должности положено, как Директору Департамента информации и печати Министерства иностранных дел Российской Федерации), упоминание «Захарова» на русском скачет, все ресурсы обсуждают филигранную ответную реакцию нашего МИДа, мы смотрим в этот момент на рост упоминаний «Zakharova» и видим, что международное сообщество просто пропустило это заявление мимо ушей, никто даже не перепечатал. Такие дела
Вот вам еще яркий пример обратной ситуации, когда заявления политика практически идеально согласуются в англоязычном и русскоязычном сегменте:

а так?

1) Посмотрели на график:


2) Поняли, какие заявления политик делает для внутреннего потребления, а какие для внешнего
3) Сформировали независимое мнение относительно происходящего
4) Profit!
Можете показать пример, где паразитный выброс кардинально меняет картину?

image
По всплескам в англоязычном сегменте могу пояснить:

2017-06-23 — в зарубежных СМИ пушится информация о том, что Навальный, как осужденный по уголовной статье, не имеет права принимать участие в президентский выборах
2017-07-07 — Навальный выходит из СИЗО

У нас тишина.
Существуют вполне прикладные задачи, в которых требуется обработать терабайты текста еще и распределенно в кластере. Именно в такие моменты и садятся за оптимизацию обработки пробелов, вдумчиво выбирают разделитель данных и т.д.
В чём ваш тезис? О каких объективных фактах вы говорите?
РПЦ — организация достаточно серьезная, часть из того, что вы перечислили — уже реализована. Пользуясь случаем передаем ребятам привет!
Kaspersky_Lab, мы ежедневно сканим топ 1м от Алексы, давайте для вас засечём что-нибудь интересное по безопасности?
В одном из топиков уже обсуждали этот вопрос, процитирую себя:
Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.
Всё верно, и силу влияния этого события мы видим в скачке с 4-го на 5-е, 6-го фон естественным образом спадает, но 7-го числа резко падает в полтора раза от всей своей величины. Т.к. мы срезаем не запросы (гугл трендс), а контент, то это означает только то, что кто-то, кто постоянно писал про РПЦ резко убрал упоминания с морд. По какой причине — совсем другой вопрос, который можно обсудить с сообществом хабрахабра и накидать версий.
Не ищите чёрную кошку в тёмной комнате, особенно если её там нет. Есть же кнопка переключения шкалы на линейную/логарифмическую.

Information

Rating
Does not participate
Registered
Activity