Как стать автором
Обновить
0
Рейтинг

Data Mining в Big Data: рейтинг цитируемости СМИ в социальных медиа

Блог компании PalitrumLab Big Data *
«Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014г, чтобы составить рейтинг цитируемости СМИ.
В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.
image

Собственно, сам рейтинг получился таким:
Топ-30 рейтинга цитируемости СМИ в социальных медиа (март 2014г):
Место в
рейтинге

Название ресурса
Адрес сайта
Индекс
SMI

Количество
ссылок

1
РИА «Новости» ria.ru 117 516 641
2
RT на русском russian.rt.com 83 364 845
3
Лента.Ру lenta.ru 72 318 735
4
Радиостанция «Эхо Москвы» echo.msk.ru 52 226 985
5
Газета.Ru gazeta.ru 51 226 760
6
Life News lifenews.ru 48 212 870
7
Телеканал «Дождь» tvrain.ru 48 210 413
8
ИТАР-ТАСС itar-tass.com 46 203 795
9
Вести.ru vesti.ru 45 197 654
10
Sports.ru sports.ru 42 184 831
11
РБК (РосБизнесКонсалтинг) rbc.ru 35 154 048
12
NEWSru.com newsru.com 32 140 082
13
Комсомольская правда kp.ru 31 136 291
14
Интерфакс interfax.ru 28 121 714
15
Российская газета rg.ru 27 118 643
16
НТВ ntv.ru 26 113 353
17
Новый Регион 2 nr2.ru 25 110 104
18
Деловая газета «Взгляд» vz.ru 23 100 647
19
Первый канал 1tv.ru 19 84 659
20
Сноб Медиа snob.ru 18 78 439
21
Информационное агентство REGNUM regnum.ru 17 76 920
22
Коммерсант.ru kommersant.ru 15 66 221
23
Slon.ru slon.ru 15 65 872
24
Ведомости vedomosti.ru 15 63 915
25
Аргументы и факты aif.ru 13 58 290
26
Известия.ру izvestia.ru 13 56 109
27
В Москве — Московские новости newsmsk.com 12 54 147
28
Новая газета novayagazeta.ru 12 52 367
29
Свободная пресса svpressa.ru 11 49 069
30
ИноСМИ.ru inosmi.ru 10 42 757
Подробнее о рейтинге, формировании индекса SMI и рейтинговании SMR можно прочитать в нашем блоге: http://br-analytics.ru/blog/?p=1264

ЗАЧЕМ И ДЛЯ КОГО?

На рынке исследований СМИ существует несколько рейтингов измерений изданий: по тиражу, по посещаемости онлайн-версий, по цитируемости _в других_ СМИ, по количеству подписчиков (как в оффлайне, так и в онлайне). Фактически все эти измерения сравнивают данные, которые уже где-то собраны: в типографиях, сервисах интернет-статистики, счетчиках социальных сетей. Сравнивать же СМИ по цитируемости в других СМИ — это максимум, что могла предложить индустрия мониторинга СМИ, но, согласитесь, подобная метрика вызывает больше вопросов, чем ответов.

Когда у наших коллег-социологов появилась задача ранжирования СМИ по авторитетности и доверию читателей, решение было стандартное — провести опрос с предложением указать какие из СМИ, по мнению интервьюируемых, являются более авторитетными.

Имея (дурную :-) ) привычку все социумные задачи проецировать на социальные медиа, мы решили помочь партнерам получить дополнительную информацию из сообщений пользователей в социальных сетях и комментариев к статьям.

КАК: ОТКРЫТИЯ И ТРУДНОСТИ

Задача получилась интересная в техническом плане и неожиданная по результатам. Объем данных был понятен заранее — наша Платформа собирает в сутки 20-25 миллионов сообщений и комментариев в сутки, значит за март обработать придется примерно 600 млн материалов.

Дальше вроде как все просто: осталось понять количество сообщений, содержащих ссылки, выдрать их, обработать, убрать лишнее, отнормировать и отсортировать. Для анализа взяли данные за один день и понеслось. Первая неожиданность возникла в количестве ссылок: никто из аналитиков не мог предположить, что количество ссылок примерно соответствует количеству сообщений — свыше 15млн в сутки!

Вторая «неприятность» — количество ссылок на картинки, графические элементы, видео — примерно 30% от общего количества. К третьей «неприятности» мы были уже готовы — технология развертывания «коротких» ссылок уже используется в отчетах системы Brand Analytics, но одно дело развертка десятков тысяч, другое — порядка 4-5 млн за сутки. Заодно, к уже привычным 12-ти популярным сервисам свертки длинных ссылок прибавилось еще 23 новых.

«Лобовая» однопоточная обработка данных за одни сутки заняла часа 3-4, что в общем-то нормально для «наколеночного» неторопливого исследовательского варианта, но мало-приемлемо для регулярного ежедневного мониторинга. Итоговый многопоточный (3 потока) алгоритм, который применялся к обработке данных за месяц, позволил обработать месячный массив в 655 млн за 6 часов.

P.S. Желающим поэкспериментировать с различными методологиями парсинга неструктурированных данных готовы предоставить часовую выгрузку данных — возможно кто-то сможет предложить более скоростное решение.

ИТОГИ

Итоговые данные:
• Обработано сообщений за март: 655 269 709
• Уникальных авторов: 35 172 270
• ВСЕГО найдено ссылок: 536 185 906
• Cсылок БЕЗ КАРТИНОК: 357 853 627
• КОРОТКИХ ссылок: 110 685 097

Для любителей статистики приводим эксклюзивные данные по топу «сырых»
ссылок-«миллиоников» — на наш взгляд очень любопытная инфа:
154 659 839 vk.com
25 776 485 apps.facebook.com
23 611 855 dsm.odnoklassniki.ru
10 531 545 facebook.com
10 123 556 youtube.com
5 240 568 instagram.com
4 026 849 twitter.com
2 320 472 plus.google.com
2 304 521 ask.fm
1 847 571 docs.google.com
1 225 210 islandandroid.17bullets.com
Возвращаясь от технократических вопросов к методологическим…

1. Не секрет, что в каждой популярной соцсети достаточно высокий (от 10 до 47%) уровень автоматических сообщений: и бот-аккаунты (бот-сети), и сообщения-уведомления (игры, открытки, подарки, улыбки и пр.). Предвидя закономерный вопрос внимательных читателей-экспертов — да, подобные сообщения фильтруются и не доходят до модуля анализа и рейтингования целей ссылок.

2. После публикации Индекса цитирования СМИ на популярных ресурсах, в нескольких группах в соцсетях возникло обсуждение, где народ иронизировал над лидером рейтинга — РИА «Новости», — что их высокий уровень цитрирования в соцмедиа связан с тем, что редакция закрыла возможность комментирования материалов на сайте ria.ru. Мысль интересная, не правда ли? И наталкивает на новые «ходы» для SMM'щиков :-)

Возможно наши аналитики учтут данный аспект в расчете Рейтинга и Индекса цитирования СМИ в следующем исследовании, за апрель месяц. Например, приравняв комментарии к статье на сайте издания к публикациям в соцмедиа (тем более, что по нашей методике комментарий к новости учитывается как самостоятельный объект). Если у вас есть мнение по данному вопросу — с удовольствием выслушаем и мнение, и конечно же аргументацию «за» и «против».

P.S. В рейтинге ссылок Хабра находится высоко, в первой 50-ке, и на первом месте среди технологических ресурсов.
Теги: big dataсоциальные медиаdata miningрейтинг рунета
Хабы: Блог компании PalitrumLab Big Data
Всего голосов 25: ↑21 и ↓4 +17
Комментарии 33
Комментарии Комментарии 33

Похожие публикации

Лучшие публикации за сутки