Data Mining в Big Data: рейтинг цитируемости СМИ в социальных медиа

    «Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014г, чтобы составить рейтинг цитируемости СМИ.
    В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.
    image

    Собственно, сам рейтинг получился таким:
    Топ-30 рейтинга цитируемости СМИ в социальных медиа (март 2014г):
    Место в
    рейтинге

    Название ресурса
    Адрес сайта
    Индекс
    SMI

    Количество
    ссылок

    1
    РИА «Новости» ria.ru 117 516 641
    2
    RT на русском russian.rt.com 83 364 845
    3
    Лента.Ру lenta.ru 72 318 735
    4
    Радиостанция «Эхо Москвы» echo.msk.ru 52 226 985
    5
    Газета.Ru gazeta.ru 51 226 760
    6
    Life News lifenews.ru 48 212 870
    7
    Телеканал «Дождь» tvrain.ru 48 210 413
    8
    ИТАР-ТАСС itar-tass.com 46 203 795
    9
    Вести.ru vesti.ru 45 197 654
    10
    Sports.ru sports.ru 42 184 831
    11
    РБК (РосБизнесКонсалтинг) rbc.ru 35 154 048
    12
    NEWSru.com newsru.com 32 140 082
    13
    Комсомольская правда kp.ru 31 136 291
    14
    Интерфакс interfax.ru 28 121 714
    15
    Российская газета rg.ru 27 118 643
    16
    НТВ ntv.ru 26 113 353
    17
    Новый Регион 2 nr2.ru 25 110 104
    18
    Деловая газета «Взгляд» vz.ru 23 100 647
    19
    Первый канал 1tv.ru 19 84 659
    20
    Сноб Медиа snob.ru 18 78 439
    21
    Информационное агентство REGNUM regnum.ru 17 76 920
    22
    Коммерсант.ru kommersant.ru 15 66 221
    23
    Slon.ru slon.ru 15 65 872
    24
    Ведомости vedomosti.ru 15 63 915
    25
    Аргументы и факты aif.ru 13 58 290
    26
    Известия.ру izvestia.ru 13 56 109
    27
    В Москве — Московские новости newsmsk.com 12 54 147
    28
    Новая газета novayagazeta.ru 12 52 367
    29
    Свободная пресса svpressa.ru 11 49 069
    30
    ИноСМИ.ru inosmi.ru 10 42 757
    Подробнее о рейтинге, формировании индекса SMI и рейтинговании SMR можно прочитать в нашем блоге: http://br-analytics.ru/blog/?p=1264

    ЗАЧЕМ И ДЛЯ КОГО?

    На рынке исследований СМИ существует несколько рейтингов измерений изданий: по тиражу, по посещаемости онлайн-версий, по цитируемости _в других_ СМИ, по количеству подписчиков (как в оффлайне, так и в онлайне). Фактически все эти измерения сравнивают данные, которые уже где-то собраны: в типографиях, сервисах интернет-статистики, счетчиках социальных сетей. Сравнивать же СМИ по цитируемости в других СМИ — это максимум, что могла предложить индустрия мониторинга СМИ, но, согласитесь, подобная метрика вызывает больше вопросов, чем ответов.

    Когда у наших коллег-социологов появилась задача ранжирования СМИ по авторитетности и доверию читателей, решение было стандартное — провести опрос с предложением указать какие из СМИ, по мнению интервьюируемых, являются более авторитетными.

    Имея (дурную :-) ) привычку все социумные задачи проецировать на социальные медиа, мы решили помочь партнерам получить дополнительную информацию из сообщений пользователей в социальных сетях и комментариев к статьям.

    КАК: ОТКРЫТИЯ И ТРУДНОСТИ

    Задача получилась интересная в техническом плане и неожиданная по результатам. Объем данных был понятен заранее — наша Платформа собирает в сутки 20-25 миллионов сообщений и комментариев в сутки, значит за март обработать придется примерно 600 млн материалов.

    Дальше вроде как все просто: осталось понять количество сообщений, содержащих ссылки, выдрать их, обработать, убрать лишнее, отнормировать и отсортировать. Для анализа взяли данные за один день и понеслось. Первая неожиданность возникла в количестве ссылок: никто из аналитиков не мог предположить, что количество ссылок примерно соответствует количеству сообщений — свыше 15млн в сутки!

    Вторая «неприятность» — количество ссылок на картинки, графические элементы, видео — примерно 30% от общего количества. К третьей «неприятности» мы были уже готовы — технология развертывания «коротких» ссылок уже используется в отчетах системы Brand Analytics, но одно дело развертка десятков тысяч, другое — порядка 4-5 млн за сутки. Заодно, к уже привычным 12-ти популярным сервисам свертки длинных ссылок прибавилось еще 23 новых.

    «Лобовая» однопоточная обработка данных за одни сутки заняла часа 3-4, что в общем-то нормально для «наколеночного» неторопливого исследовательского варианта, но мало-приемлемо для регулярного ежедневного мониторинга. Итоговый многопоточный (3 потока) алгоритм, который применялся к обработке данных за месяц, позволил обработать месячный массив в 655 млн за 6 часов.

    P.S. Желающим поэкспериментировать с различными методологиями парсинга неструктурированных данных готовы предоставить часовую выгрузку данных — возможно кто-то сможет предложить более скоростное решение.

    ИТОГИ

    Итоговые данные:
    • Обработано сообщений за март: 655 269 709
    • Уникальных авторов: 35 172 270
    • ВСЕГО найдено ссылок: 536 185 906
    • Cсылок БЕЗ КАРТИНОК: 357 853 627
    • КОРОТКИХ ссылок: 110 685 097

    Для любителей статистики приводим эксклюзивные данные по топу «сырых»
    ссылок-«миллиоников» — на наш взгляд очень любопытная инфа:
    154 659 839 vk.com
    25 776 485 apps.facebook.com
    23 611 855 dsm.odnoklassniki.ru
    10 531 545 facebook.com
    10 123 556 youtube.com
    5 240 568 instagram.com
    4 026 849 twitter.com
    2 320 472 plus.google.com
    2 304 521 ask.fm
    1 847 571 docs.google.com
    1 225 210 islandandroid.17bullets.com
    Возвращаясь от технократических вопросов к методологическим…

    1. Не секрет, что в каждой популярной соцсети достаточно высокий (от 10 до 47%) уровень автоматических сообщений: и бот-аккаунты (бот-сети), и сообщения-уведомления (игры, открытки, подарки, улыбки и пр.). Предвидя закономерный вопрос внимательных читателей-экспертов — да, подобные сообщения фильтруются и не доходят до модуля анализа и рейтингования целей ссылок.

    2. После публикации Индекса цитирования СМИ на популярных ресурсах, в нескольких группах в соцсетях возникло обсуждение, где народ иронизировал над лидером рейтинга — РИА «Новости», — что их высокий уровень цитрирования в соцмедиа связан с тем, что редакция закрыла возможность комментирования материалов на сайте ria.ru. Мысль интересная, не правда ли? И наталкивает на новые «ходы» для SMM'щиков :-)

    Возможно наши аналитики учтут данный аспект в расчете Рейтинга и Индекса цитирования СМИ в следующем исследовании, за апрель месяц. Например, приравняв комментарии к статье на сайте издания к публикациям в соцмедиа (тем более, что по нашей методике комментарий к новости учитывается как самостоятельный объект). Если у вас есть мнение по данному вопросу — с удовольствием выслушаем и мнение, и конечно же аргументацию «за» и «против».

    P.S. В рейтинге ссылок Хабра находится высоко, в первой 50-ке, и на первом месте среди технологических ресурсов.
    PalitrumLab
    Company
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 33

      0
        0
        Вероятно, что-то мобильное игры 17bullets.com )
          0
          Точнее всех их игр
        +3
        Интересно было бы посмотреть на такую статистику по группам вконтакте.
          0
          Я думаю, в ближайшее время сделаем) и не только для вконтакте)
            0
            Группа в контакте — это vk.com/NNNNNN?
              0
              Не совсем, урл и у пользователя есть. Можно посмотреть и топ по группам и топ по пользователям, при чем интересно не только по ВК, там по всем сеткам много прекрасного ;)
            +4
            Так себе big data, все на одну машину даже помещается.
              +1
              В BigData важнее машины — ум прокладки за рулем. Если ума немного, то любые данные будут казаться «так себе». Кстати, может поделитесь Вами выстраданным уровнем, сверх которого данные становятся Big? Можно даже в самосвалах ;)
              +1
              А где можно потрогать суточную выгрузку? :)
                0
                Пришлите запрос на info@palitrumlab.ru — вышлем,
                0
                Какую БД вы используете для хранения такого объема данных?
                  +1
                  Для данного исследования — никакую ;) Эта задача интересна логикой результата. Что же касается стандартных задач по анализу данных соцмедиа, то в них зачастую крайне важна оперативность обработки новых данных, когда счет идет на секунды — поток в сотни и тысячи неструктурированных сообщений в секунду нужно анализировать (в том числе и задействуя для части подпотоков медленные лингвомодули) на лету. Поэтому используется связки разных по функциональности блоков, а из баз хранения/пред.анализа используется Монга и Эластик. Для оконечных тем — MySQL.
                    +1
                    Почитал сам себя — уж очень мудренно получилось ;) Давайте на пальцах «покажу» примерчики, надеюсь будет понятней. У нас есть «демонстрашка» для партнеров, на которой можно поглядеть вживую некоторые верхушки Платформы — сайт ilook.ru (мы его не продвигаем, не рекламируем. рекламы на нем нет, это некий удобный интерфейс для проверки данных и гипотез). На сайте есть блок Сегондня/Вчера/Всего — который показывает накопение данных в Платформу. Это «окошко» в (со)хранилище данных и метаданных, грубо говоря — к кластерам Монги, в которые помещаются данные.

                    Но одновременно (некоторые) данные помещаются в Эластик для пред.анализа. Если в строке поиска Вы введете поисковое слово/фразу (например, местоимение Я), то получите страницу выдачи, с учетом морфологии (т.е. сообщения, содержащие также «мне», «меня», «мое»...). Приоритет — у только что пришедших сообщений (во многих наших задачах время — приоритет).

                    А есть еще «пользовательские темы» (долгоживущие объекты, с глубоким анализом данных, но с реал-таймом, например — br-analytics.ru/12366591/), то для таких объектов вполне хватает MySQL, хотя сейчас мы с SAP'ом работаем над вариантом c HANA, поскольку для ряда задач это может дать существенную прибавку к пороговым планкам.

                    P.S. Для задач обработки архивных данных, о которой и шла речь в статье аналитиков, можно остановиться на любой БД, или даже остановиться на файлах со строками. Хотя Вы это и так знаете :-) Избыточность применяемых технологий — вполне себе распространенная проблематика. Не всегда нужен микроскоп, чтобы забить гвоздь
                  0
                  Итоговый многопоточный (3 потока) алгоритм, который применялся к обработке данных за месяц, позволил обработать месячный массив в 655 млн за 6 часов.

                  Сначала вы открыли для себя многопоточность, а там гляди откроете человечеству mapreduce
                  Кстати, откройте секрет, почему потока 3?
                    +1
                    Пару недель назад, на конференции по BigData обсуждали с коллегами из Cloudera (уверен, что Вам, как эксперту по MR не надо рассказывать про них) проблематику задач OBD&A, куда конечно же падают аналитики соцмедиа. Коллеги с завистью смотрели на нехадуповское решение, поскольку ни Шарк, ни Антилопа не решают такие задачи — сдерживает сама матричная платформа. Да, просчитать прошлое, найти коллеции медицинских препаратов, или нарушения в томографическом слепке — т.е. когда все данные одинаково (не)важны — здесь все хорошо (на это и создавалось). А вот для исследовательских задач или задач оперативной социологии — не всегда.

                    Потока 3 — потому что больше было не нужно: запустили на ночь — утром аналитики получили данные. Зачем тратить ресурсов больше, чем нужно для получения результата в нужное время?
                      0
                      А зачем вам онлайн-агрегация, если вы пересчитываете данные за месяц?
                      И зачем пересчитывать все данные за месяц, чтобы составить рейтинг цитируемости?
                        0
                        Рейтинг цитируемости — далеко не основная наша задача. Для подавляющего большинства решаемых нами задач необходим режим реального времени, например, для анализа мнений во время теле-эфиров, событий, управления репутацией и тд — счет идет на секунды.
                        Пересчитывать данные за месяц для рейтинга необходимо потому, что данные за меньший временной промежуток менее объективны. Например, за день — может быть «новость дня» и кто первый её опубликовал, того и тапки, на тот источник и ссылаются больше всего.
                          +1
                          Да, спасибо, CvetKomm, уже на все дан ответ :-) Индекс цитирования — одна из многих «фоновых» задач, — наглядная и практически интересная и полезная (наверное). В «рейтингологии» всегда присутствует параметр регулярности/скважности: минута, час, сутки, неделя, месяц, квартал, год. Для рейтинга СМИ логично использовать месяц-квартал, меньшие или большие интервалы конечно возможны, но на них девиация и ситуационные всплески будут или слишком влиятельны или, наоборот, чересчур размазаны в итоге.
                    +2
                    Я все-таки соглашусь с комментарием выше, что это не «big data». Когда «это» явно больше одной машины — тогда это «big data». А сейчас это «data mining», как бы вам ни хотелось думать иначе. И ничего в этом плохого нет. «Big data» это просто модный штамп, но зачастую задача извлечения каких-то зависимостей из текста объемом в 100 МБ оказывается сложнее, чем несложная обработка терабайта логов какого-нибудь веб-сервера. Так что, как разработчикам, Вам нечего стыдиться — скорее наоборот.

                    Вот этот момент заинтересовал: «да, подобные сообщения фильтруются и не доходят до модуля анализа». Насколько я знаю (из практического опыта), некоторых ботов даже люди не могут распознать. Сидит себе профайл в соцсети, пишет какие-то цитатки изредка, шарит ссылочки, имеет 150 друзей. Поясните пожалуйста поподробнее про Ваши алгоритмы распознавания, уж очень сомнительным выглядит утверждение про фильтрацию ботов.
                      +1
                      andyN, спасибо за комментарий. Конечно, мерять данные «в машинах» — иезуитство. Для обработки структурированных (шаблонных) данных используется арго «молотилка», и не имеет значение количество йотобайт и стоек. Для обработки неструктурированных данных, на мой взгляд, BigData начинается с такого набора данных, которых достаточно на генерацию новых устойчивых сущностей, выявление которых невозможно на меньшем наборе данных.

                      Приведу пример от коллег: есть АСКУЭ — счетчики электричества, автоматически передающие «в центр от Юстаса» данные потребления электричества в квартире. Кажется ежеминутно. Анализируя некий большой объем данных возможно выяснить, какой стиральной машинкой пользуется ваша семья, и даже сколько ей лет, и в счете на электричество присылать рекламу новой стиральной машины :-)

                      P.S. Данные наших архивов и рейл-тайм потоков «хранятся» не на одной «машине» и даже не в одном ДЦ.
                        0
                        Что касается ботов — их «видно» по ссылающимся сообщениям — текстам и структуре сообщения сопровождающего ссылку. У нас достаточно сложный алгоритм выявления ботов, включающий и полу-ручную обработку, и автоматические механизмы.
                          0
                          Небольшое техническое дополнение: у нас есть в разработке технологии раннего выявления новых трендов (задача «Челябинского метерорита»). Существующие технологии, например, наших коллег из ИППИ РАН, предназначены для более длительных (месяцы, годы) изменений. Применение нашей технологии к информационному полю еще требует аналитического сопровождения (много «мусора», нужно добавлять объединение сюжетов, серьезно модифицировать NER для соцмедиа и т.п.), но зато у технологии обнаружилась классная «фича» — великолепное обнаружение бот-сетей :-) Так что данную проблематику мы считаем практически закрытой. И массовое задействование бот-сетей и множества «человекообразных» бот-аккаунтов легко обнаруживаемым.
                            0
                            Спасибо за комментарий. Получается, что вы не анализируете профайл как таковой, а смотрите только на текст и ссылку самого сообщения? А что если тексты и ссылка уникализированы? Я понимаю, что в реальности как правило никто так не делает (ибо зачем?), но все же. К примеру — есть бот, он «написал» какой-то уникальный пост и скинул ссылку на сайт, его сообщение «ретвитнули» еще 50 других ботов. Такие штуки не обнаружатся?
                              0
                              Конечно обнаружатся. Это самая простейшая эвристика. Например, не слишком заморачивающиеся на интеллект бото-владельцы используют данную «технологию» для симуляции жизни своих голем-аккаунтов, не понимая, что их «труд» и выдает с головой всю рассаду :-) такие случаи не интересны, но массовы, особенно в Твиттере.

                              В интернет-тусовке есть несколько известных личностей, которые пытаются продвигать подобные «наработки», не понимая, что просто подставляют заказчиков под скандал.
                          0
                          Очень странное мнение… Вообще-то речь идет о базе в 7 млрд. сообщений (более 50 терабайт), новых записей 400-500 в секунду, с реалтайм анализом (определение языка, разворачивание ссылок, обновление и анализ авторов, анализ спам-ботов и пр.). Анализ произведен по 650 млн сообщений (4,5 терабайт). Серверов несколько десятков (специализированных HP). Мало?
                            0
                            Т.е. речь идет о базе, где средний размер сообщений почти в 8kb(?
                            Оук, выкинем пробелы, символы лишнее…
                            По нижней оценке получим около 1т слов на сообщение. Длинных таких слов.

                            P.S. Радость от цифр бд была бы неполной… если не дополнить деталями по:
                            — кол-во дубликатов
                            — накладные расходы от служебных данных бд
                            — размеры базы с учетом/без индексов?
                            — … /*хардкор какой-нить*/
                            А так по цифрам — весомо, увесисто, много… Но вопросы есть, как то (по тви) — 1.3млн твитов за день?
                            Деталей, нам! Деталей))))

                            p.p.s. про детали хорошо и статью написать, техническую.
                              0
                              p.p.s. По новымЗаписям/сек накопление базы заняло непрерывной нагрузки — 162 дня. При этом релевантных ссылок гугл не бьёт по целевым и смежным с ilook запросам до 2012( (С) на сайте 2012-2014).
                              Аррррггггх! Ми спати от теорий разных… загоров, как вариант…
                          0
                          здравствуйте!
                          А как считаете индекс smi?
                          Какие данные из сообщений используются в процессе анализа? Вы ведь не просто количество ссылок считаете?)
                            0
                            Добрый день! Для расчета используется как раз количество ссылок и их доля в общем объеме. Индекс цитируемости СМИ (SMI) – округленное до тысяч общее количество опубликованных ссылок на Топ-30 СМИ. За март 2014 года количество ссылок на ресурсы Топ-30 составило 4 407 176, соответственно, SMI = 4407 пунктов. Количественный показатель для Рейтинга цитируемости СМИ в социальных медиа (SMR) представляет собой долю ссылок на материалы каждого СМИ в общем количестве ссылок на ресурсы Топ-30, умноженную на 10.
                            Например: на ресурсы РИА «Новости» (ria.ru) было сделано 516 641 ссылок, что составляет 11.7% от общего количества ссылок на Топ-30 СМИ, и SMR = 117 пунктов.
                              0
                              Спасибо за ответ)
                              Можно еще по технической части вопросов:
                              Какие источники сообщений для сбора? Твиттер/вк?
                              Как ведётся сбор? ключевые слова? списки акков? api/парсинг?
                              Какой объём данных получается за месяц, день(в любом виде — json/csv/db/...)?
                                0
                                Источники и статистика по сбору: www.ilook.ru/statistics
                                Для каждого источника своя технология сбора — api, парсинг, rss, прямое партнерство с некоторыми источниками и др.
                            0
                            Упс(

                            Only users with full accounts can post comments. Log in, please.