«Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014г, чтобы составить рейтинг цитируемости СМИ.
В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.


Собственно, сам рейтинг получился таким:

Топ-30 рейтинга цитируемости СМИ в социальных медиа (март 2014г):

Место в
рейтинге


Название ресурса


Адрес сайта


Индекс
SMI


Количество
ссылок


1


РИА «Новости» ria.ru 117 516 641

2


RT на русском russian.rt.com 83 364 845

3


Лента.Ру lenta.ru 72 318 735

4


Радиостанция «Эхо Москвы» echo.msk.ru 52 226 985

5


Газета.Ru gazeta.ru 51 226 760

6


Life News lifenews.ru 48 212 870

7


Телеканал «Дождь» tvrain.ru 48 210 413

8


ИТАР-ТАСС itar-tass.com 46 203 795

9


Вести.ru vesti.ru 45 197 654

10


Sports.ru sports.ru 42 184 831

11


РБК (РосБизнесКонсалтинг) rbc.ru 35 154 048

12


NEWSru.com newsru.com 32 140 082

13


Комсомольская правда kp.ru 31 136 291

14


Интерфакс interfax.ru 28 121 714

15


Российская газета rg.ru 27 118 643

16


НТВ ntv.ru 26 113 353

17


Новый Регион 2 nr2.ru 25 110 104

18


Деловая газета «Взгляд» vz.ru 23 100 647

19


Первый канал 1tv.ru 19 84 659

20


Сноб Медиа snob.ru 18 78 439

21


Информационное агентство REGNUM regnum.ru 17 76 920

22


Коммерсант.ru kommersant.ru 15 66 221

23


Slon.ru slon.ru 15 65 872

24


Ведомости vedomosti.ru 15 63 915

25


Аргументы и факты aif.ru 13 58 290

26


Известия.ру izvestia.ru 13 56 109

27


В Москве — Московские новости newsmsk.com 12 54 147

28


Новая газета novayagazeta.ru 12 52 367

29


Свободная пресса svpressa.ru 11 49 069

30


ИноСМИ.ru inosmi.ru 10 42 757
Подробнее о рейтинге, формировании индекса SMI и рейтинговании SMR можно прочитать в нашем блоге: http://br-analytics.ru/blog/?p=1264

ЗАЧЕМ И ДЛЯ КОГО?

На рынке исследований СМИ существует несколько рейтингов измерений изданий: по тиражу, по посещаемости онлайн-версий, по цитируемости _в других_ СМИ, по количеству подписчиков (как в оффлайне, так и в онлайне). Фактически все эти измерения сравнивают данные, которые уже где-то собраны: в типографиях, сервисах интернет-статистики, счетчиках социальных сетей. Сравнивать же СМИ по цитируемости в других СМИ — это максимум, что могла предложить индустрия мониторинга СМИ, но, согласитесь, подобная метрика вызывает больше вопросов, чем ответов.

Когда у наших коллег-социологов появилась задача ранжирования СМИ по авторитетности и доверию читателей, решение было стандартное — провести опрос с предложением указать какие из СМИ, по мнению интервьюируемых, являются более авторитетными.

Имея (дурную :-) ) привычку все социумные задачи проецировать на социальные медиа, мы решили помочь партнерам получить дополнительную информацию из сообщений пользователей в социальных сетях и комментариев к статьям.

КАК: ОТКРЫТИЯ И ТРУДНОСТИ

Задача получилась интересная в техническом плане и неожиданная по результатам. Объем данных был понятен заранее — наша Платформа собирает в сутки 20-25 миллионов сообщений и комментариев в сутки, значит за март обработать придется примерно 600 млн материалов.

Дальше вроде как все просто: осталось понять количество сообщений, содержащих ссылки, выдрать их, обработать, убрать лишнее, отнормировать и отсортировать. Для анализа взяли данные за один день и понеслось. Первая неожиданность возникла в количестве ссылок: никто из аналитиков не мог предположить, что количество ссылок примерно соответствует количеству сообщений — свыше 15млн в сутки!

Вторая «неприятность» — количество ссылок на картинки, графические элементы, видео — примерно 30% от общего количества. К третьей «неприятности» мы были уже готовы — технология развертывания «коротких» ссылок уже используется в отчетах системы Brand Analytics, но одно дело развертка десятков тысяч, другое — порядка 4-5 млн за сутки. Заодно, к уже привычным 12-ти популярным сервисам свертки длинных ссылок прибавилось еще 23 новых.

«Лобовая» однопоточная обработка данных за одни сутки заняла часа 3-4, что в общем-то нормально для «наколеночного» неторопливого исследовательского варианта, но мало-приемлемо для регулярного ежедневного мониторинга. Итоговый многопоточный (3 потока) алгоритм, который применялся к обработке данных за месяц, позволил обработать месячный массив в 655 млн за 6 часов.

P.S. Желающим поэкспериментировать с различными методологиями парсинга неструктурированных данных готовы предоставить часовую выгрузку данных — возможно кто-то сможет предложить более скоростное решение.

ИТОГИ

Итоговые данные:
• Обработано сообщений за март: 655 269 709
• Уникальных авторов: 35 172 270
• ВСЕГО найдено ссылок: 536 185 906
• Cсылок БЕЗ КАРТИНОК: 357 853 627
• КОРОТКИХ ссылок: 110 685 097

Для любителей статистики приводим эксклюзивные данные по топу «сырых»
ссылок-«миллиоников» — на наш взгляд очень любопытная инфа:
154 659 839 vk.com
25 776 485 apps.facebook.com
23 611 855 dsm.odnoklassniki.ru
10 531 545 facebook.com
10 123 556 youtube.com
5 240 568 instagram.com
4 026 849 twitter.com
2 320 472 plus.google.com
2 304 521 ask.fm
1 847 571 docs.google.com
1 225 210 islandandroid.17bullets.com
Возвращаясь от технократических вопросов к методологическим…

1. Не секрет, что в каждой популярной соцсети достаточно высокий (от 10 до 47%) уровень автоматических сообщений: и бот-аккаунты (бот-сети), и сообщения-уведомления (игры, открытки, подарки, улыбки и пр.). Предвидя закономерный вопрос внимательных читателей-экспертов — да, подобные сообщения фильтруются и не доходят до модуля анализа и рейтингования целей ссылок.

2. После публикации Индекса цитирования СМИ на популярных ресурсах, в нескольких группах в соцсетях возникло обсуждение, где народ иронизировал над лидером рейтинга — РИА «Новости», — что их высокий уровень цитрирования в соцмедиа связан с тем, что редакция закрыла возможность комментирования материалов на сайте ria.ru. Мысль интересная, не правда ли? И наталкивает на новые «ходы» для SMM'щиков :-)

Возможно наши аналитики учтут данный аспект в расчете Рейтинга и Индекса цитирования СМИ в следующем исследовании, за апрель месяц. Например, приравняв комментарии к статье на сайте издания к публикациям в соцмедиа (тем более, что по нашей методике комментарий к новости учитывается как самостоятельный объект). Если у вас есть мнение по данному вопросу — с удовольствием выслушаем и мнение, и конечно же аргументацию «за» и «против».

P.S. В рейтинге ссылок Хабра находится высоко, в первой 50-ке, и на первом месте среди технологических ресурсов.