Data Mining в Big Data: рейтинг цитируемости СМИ в социальных медиа
«Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014г, чтобы составить рейтинг цитируемости СМИ.
В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.
Собственно, сам рейтинг получился таким:
Топ-30 рейтинга цитируемости СМИ в социальных медиа (март 2014г):
Место в |
Название ресурса |
Адрес сайта |
Индекс |
Количество |
1 |
РИА «Новости» | ria.ru | 117 | 516 641 |
2 |
RT на русском | russian.rt.com | 83 | 364 845 |
3 |
Лента.Ру | lenta.ru | 72 | 318 735 |
4 |
Радиостанция «Эхо Москвы» | echo.msk.ru | 52 | 226 985 |
5 |
Газета.Ru | gazeta.ru | 51 | 226 760 |
6 |
Life News | lifenews.ru | 48 | 212 870 |
7 |
Телеканал «Дождь» | tvrain.ru | 48 | 210 413 |
8 |
ИТАР-ТАСС | itar-tass.com | 46 | 203 795 |
9 |
Вести.ru | vesti.ru | 45 | 197 654 |
10 |
Sports.ru | sports.ru | 42 | 184 831 |
11 |
РБК (РосБизнесКонсалтинг) | rbc.ru | 35 | 154 048 |
12 |
NEWSru.com | newsru.com | 32 | 140 082 |
13 |
Комсомольская правда | kp.ru | 31 | 136 291 |
14 |
Интерфакс | interfax.ru | 28 | 121 714 |
15 |
Российская газета | rg.ru | 27 | 118 643 |
16 |
НТВ | ntv.ru | 26 | 113 353 |
17 |
Новый Регион 2 | nr2.ru | 25 | 110 104 |
18 |
Деловая газета «Взгляд» | vz.ru | 23 | 100 647 |
19 |
Первый канал | 1tv.ru | 19 | 84 659 |
20 |
Сноб Медиа | snob.ru | 18 | 78 439 |
21 |
Информационное агентство REGNUM | regnum.ru | 17 | 76 920 |
22 |
Коммерсант.ru | kommersant.ru | 15 | 66 221 |
23 |
Slon.ru | slon.ru | 15 | 65 872 |
24 |
Ведомости | vedomosti.ru | 15 | 63 915 |
25 |
Аргументы и факты | aif.ru | 13 | 58 290 |
26 |
Известия.ру | izvestia.ru | 13 | 56 109 |
27 |
В Москве — Московские новости | newsmsk.com | 12 | 54 147 |
28 |
Новая газета | novayagazeta.ru | 12 | 52 367 |
29 |
Свободная пресса | svpressa.ru | 11 | 49 069 |
30 |
ИноСМИ.ru | inosmi.ru | 10 | 42 757 |
ЗАЧЕМ И ДЛЯ КОГО?
На рынке исследований СМИ существует несколько рейтингов измерений изданий: по тиражу, по посещаемости онлайн-версий, по цитируемости _в других_ СМИ, по количеству подписчиков (как в оффлайне, так и в онлайне). Фактически все эти измерения сравнивают данные, которые уже где-то собраны: в типографиях, сервисах интернет-статистики, счетчиках социальных сетей. Сравнивать же СМИ по цитируемости в других СМИ — это максимум, что могла предложить индустрия мониторинга СМИ, но, согласитесь, подобная метрика вызывает больше вопросов, чем ответов.
Когда у наших коллег-социологов появилась задача ранжирования СМИ по авторитетности и доверию читателей, решение было стандартное — провести опрос с предложением указать какие из СМИ, по мнению интервьюируемых, являются более авторитетными.
Имея (дурную :-) ) привычку все социумные задачи проецировать на социальные медиа, мы решили помочь партнерам получить дополнительную информацию из сообщений пользователей в социальных сетях и комментариев к статьям.
КАК: ОТКРЫТИЯ И ТРУДНОСТИ
Задача получилась интересная в техническом плане и неожиданная по результатам. Объем данных был понятен заранее — наша Платформа собирает в сутки 20-25 миллионов сообщений и комментариев в сутки, значит за март обработать придется примерно 600 млн материалов.
Дальше вроде как все просто: осталось понять количество сообщений, содержащих ссылки, выдрать их, обработать, убрать лишнее, отнормировать и отсортировать. Для анализа взяли данные за один день и понеслось. Первая неожиданность возникла в количестве ссылок: никто из аналитиков не мог предположить, что количество ссылок примерно соответствует количеству сообщений — свыше 15млн в сутки!
Вторая «неприятность» — количество ссылок на картинки, графические элементы, видео — примерно 30% от общего количества. К третьей «неприятности» мы были уже готовы — технология развертывания «коротких» ссылок уже используется в отчетах системы Brand Analytics, но одно дело развертка десятков тысяч, другое — порядка 4-5 млн за сутки. Заодно, к уже привычным 12-ти популярным сервисам свертки длинных ссылок прибавилось еще 23 новых.
«Лобовая» однопоточная обработка данных за одни сутки заняла часа 3-4, что в общем-то нормально для «наколеночного» неторопливого исследовательского варианта, но мало-приемлемо для регулярного ежедневного мониторинга. Итоговый многопоточный (3 потока) алгоритм, который применялся к обработке данных за месяц, позволил обработать месячный массив в 655 млн за 6 часов.
P.S. Желающим поэкспериментировать с различными методологиями парсинга неструктурированных данных готовы предоставить часовую выгрузку данных — возможно кто-то сможет предложить более скоростное решение.
ИТОГИ
Итоговые данные:
• Обработано сообщений за март: 655 269 709
• Уникальных авторов: 35 172 270
• ВСЕГО найдено ссылок: 536 185 906
• Cсылок БЕЗ КАРТИНОК: 357 853 627
• КОРОТКИХ ссылок: 110 685 097
Для любителей статистики приводим эксклюзивные данные по топу «сырых»
ссылок-«миллиоников» — на наш взгляд очень любопытная инфа:
154 659 839 | vk.com |
25 776 485 | apps.facebook.com |
23 611 855 | dsm.odnoklassniki.ru |
10 531 545 | facebook.com |
10 123 556 | youtube.com |
5 240 568 | instagram.com |
4 026 849 | twitter.com |
2 320 472 | plus.google.com |
2 304 521 | ask.fm |
1 847 571 | docs.google.com |
1 225 210 | islandandroid.17bullets.com |
1. Не секрет, что в каждой популярной соцсети достаточно высокий (от 10 до 47%) уровень автоматических сообщений: и бот-аккаунты (бот-сети), и сообщения-уведомления (игры, открытки, подарки, улыбки и пр.). Предвидя закономерный вопрос внимательных читателей-экспертов — да, подобные сообщения фильтруются и не доходят до модуля анализа и рейтингования целей ссылок.
2. После публикации Индекса цитирования СМИ на популярных ресурсах, в нескольких группах в соцсетях возникло обсуждение, где народ иронизировал над лидером рейтинга — РИА «Новости», — что их высокий уровень цитрирования в соцмедиа связан с тем, что редакция закрыла возможность комментирования материалов на сайте ria.ru. Мысль интересная, не правда ли? И наталкивает на новые «ходы» для SMM'щиков :-)
Возможно наши аналитики учтут данный аспект в расчете Рейтинга и Индекса цитирования СМИ в следующем исследовании, за апрель месяц. Например, приравняв комментарии к статье на сайте издания к публикациям в соцмедиа (тем более, что по нашей методике комментарий к новости учитывается как самостоятельный объект). Если у вас есть мнение по данному вопросу — с удовольствием выслушаем и мнение, и конечно же аргументацию «за» и «против».
P.S. В рейтинге ссылок Хабра находится высоко, в первой 50-ке, и на первом месте среди технологических ресурсов.