Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года

Это логическое продолжение статьи "Построение графа социальной сети с помощью Drupal и Feeds"

Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.

В последние годы наблюдается стремительное увеличение влияния событий блогосферы на политические и социальные процессы в мире, в том числе, и на политическую жизнь нашей страны. Социальные сети являются площадкой активного обсуждения всех политических событий страны, формирующей общественное мнение, и, прежде всего, молодежи – тех, в чьих руках окажется судьба страны спустя 10-15 лет. Таким образом, все более очевидной становится необходимость разработки методик и алгоритмов исследования социальной коммуникации социальных медиа и особенностей их влияния на текущие политические события.

Исследование коммуникаций в социальных медиа проводилось в середине ноября 2011 года. В ходе исследования был проведен анализ октябрьских-ноябрьских дискуссий из Живого Журнала, касающихся предстоящих выборов в Государственную Думу 4 декабря.
В качестве платформы для апробирования методики мониторинга исследуемого сегмента социальных медиа была выбрана блог-платформа LiveJournal («Живой журнал»). Такой выбор обусловлен направленностью данной сети в первую очередь именно на ведение открытых публичных дискуссий: «Живой журнал» на сегодняшний день стал одной из основных площадок для «гражданской журналистики».

В процессе исследования было собрано более 1200 комментариев пользователей, количество ребер в ориентированном графе превысило 950. Период сбора информации – июль – ноябрь 2011 года.

Для анализа использовалась открытая программа Gephi, в которую был импортирован граф из предыдущей статьи.

Свойства вершин и ребер




Рисунок 1 – Граф после импорта
Промежуточность (betweenness) – число присутствия вершины в кратчайших путях между любыми другими вершинами. Проведенное исследование показало, что высокой степенью промежуточности обладает крайне небольшое количество узлов – всего 6 или около 0.5%. Это означает, что в политическом сегменте Рунета не наблюдается сложной разветвленной сети со множеством больших кластеров и сообществ. Как правило, пользователи-проводники информации имеют возможность передавать информацию, общаясь одновременно в 2-4 различных кругах политических мнений. При этом эти проводники информации не обладают большой влиятельностью на мнение сообществ, в которых состоят, поэтому затруднительно использовать их в информационных кампаниях в предвыборный период.
На рисунке представлен граф, в котором наибольшим размером и цветом теплых оттенков (зеленый, оранжевый и красный) выделены пользователи, обладающие наибольшей степенью промежуточности.


Рисунок 2 – Граф с выделенными вершинами с высокой степенью промежуточности
Распределение промежуточности в графе крайне неравномерное, большая часть вершин не обладает ей совсем.


Рисунок 3 – Граф с выделенными вершинами с высокой промежуточностью
В таблице, отсортированной по убыванию представлены конкретные никнеймы пользователей, обладающих соответствующей промежуточностью. Из достаточно известных людей можно отметить лидера – это В. Милов (v_milov), один из лидеров оппозиции.


Рисунок 4 – Пользователи с высокой промежуточностью
Центральность по собственному значению (eigenvector centrality) – рекурсивная характеристика важности вершины, получаемая из суммы важности связанных вершин. Исследование показало, что высокой центральность обладает А. Навальный, Г. Явлинский, С. Миронов, а из политических сообществ только ru_politics.


Рисунок 5 – Пользователи с высокой центральностью по собственному значению

Свойства скоплений


Степень кластеризации (транзитивности) – характеристика повышенной вероятности связи между вершинами AC, если AB и BC (друг моего друга – мой друг). Данная характеристика может указывать на то, что вершины, обладающие высокой степенью кластеризации комментируются людьми, которые их лично знают.


Рисунок 6 – Количество «треугольников» в графе

Свойства сети


Диаметр – максимальный кратчайший путь между любыми двумя вершинами (между которыми такой путь возможно проложить).
d=min⁡max⁡ Lij
Формула 1 – Определение диаметра
Диаметр полученного графа равен 2, что говорит об отсутствии цепочек коммуникационных взаимодействий между пользователями.
Распределение степеней (degree distribution) – график зависимости степени вершины от всего количества таких вершин в графе. Степени для текущего исследования рассчитывались исходя из стоящих задач. Для определения авторитетных пользователей применяется метрика входящих степеней (in-degree). Если вершина обладает высокой входящей степенью, значит данного пользователя часто и много комментируют, что в свою очередь означает высокую степень интереса к нему со стороны сообщества. Как правило, такие пользователи являются лидерами мнений и проводниками новых идей, которые вызывают активные дискуссии в обществе. Исследование показало, что распределение входящих степеней подчиняется степенному закону и резко убывает с ростом числа комментаторов. Так, лидерами являются пользователи, набравшие 60, 30, 18, 15 комментариев по заданным ключевым словам.


Рисунок 7 – Пользователи с высокой входящей степенью


Рисунок 8 – Распределение входящих степеней
Одним из наиболее ярких лидеров является А. Навальный.


Рисунок 9 – Распределение входящих степеней
Анализ выходящей степени в графе показывает, что, как правило, люди комментирующие лидеров мнений сами являются лидерами по количеству комментариев.


Рисунок 10 – Распределение входящих степеней
Среднее распределение степеней для всего графа равно 0,743, однако более интересна медиана, она находится в районе 2-4. Общее распределение степеней, как входящих, так и выходящих представлено на рисунке.


Рисунок 11 – Распределение входящих степеней
Взвешенная степень характеризует нормализованное распределение степеней в диапазоне от 1 до 100. Безоговорочными лидерами являются, А. Навальный, Г. Явлинский, сообщество ru_politics. Также в списке присутствуют экономист Хазин и движение Солидарность. Интересным результатом стало то, что в списке нет таких политиков и деятелей как Г. Зюганов, В. Жириновский, М. Прохоров что отчасти может объясняться тем, что основные дискуссии ведутся их сторонниками на других площадках, в частности официальных сайтах. Отсутствие Прохорова может объясняться также тем, что он теперь пишет не о политике, а сосредоточился как и раньше на бизнесе.
Также интересным результатом можно считать то, что в списке нет региональных политических сообществ, таких как politics_south (401 читатель) — Политика на Юге России, gorodgeroev_ru (281 читатель) — Политическая жизнь в Волгограде. Данные региональные сообщества, хотя и имеют читателей, не привлекают активных комментаторов. В сообществах ru_cprf КПРФ — политическая партия, ru_sps Союз правых сил, spravedliva_ru Справедливая Россия содержатся только тексты и перепосты, практически отсутствует политическая активность и дискуссии.
Основной вывод: как правило, активные дискуссии ведутся в журналах политических лидеров, но не в сообществах, которые оттого имеют несколько искусственный характер.


Рисунок 12 – Лидеры по взвешенной степени

Модулярность позволяет в структуре графа выявить сообщества или группы пользователей. В полученном графе можно выделить 4-6 небольших групп по выбранным ключевым словам.


Рисунок 13 – Группы в графе


Рисунок 14 – Сообщество А. Навального
Размеры наиболее крупных групп варьируются от 10 до 35 пользователей, см. рис.


Рисунок 15 – Распределение групп


Рисунок 16 – Класс модулярности
Кроме анализа структуры исследование позволяет сразу же ознакомиться с текстами записей пользователей-комментаторов. В таблице представлены ребра графа, каждому ребру соответствует заголовок и текст комментария. Это позволяет сразу проанализировать более точную тематику оставленных комментариев, оценить общую тональность сообщений.


Рисунок 17 – Вершины графа с текстами комментариев

Резюме: теперь, через год, когда мы знаем, как развивались события, видно, что подобное исследование с большое степенью точности может предсказывать реальную активность протестных лидеров на основании их активности в блогосфере.
Конечно, мы собрали немного данных, можно поспорить о репрезентативности выборки (собирались записи только по определенным запросам, созданным с помощью конструктора Яндекс поиска), нужно исследовать больше сетей, не только ЖЖ. Это в будущем.

Но уже сейчас наше исследование уникально в плане анализа графа, структуры сети. Насколько я знаю, исследования обычно строят графики вовлечённости, количественные характеристики (вроде кол-ва постов, кол-во на пользователя и т.п.), объем аудитории и др. Но никто не строит структуру графа, не просчитывает метрики, как это сделали мы. А ведь это позволяет в будущем отслеживать и динамику событий.
AdBlock has stolen the banner, but banners are not teeth — they will be back

More
Ads

Comments 16

    +2
    Если не ошибаюсь схожими задачами занимались/занимаются в ИПУ РАН. Вы случаем не от туда?
      –7
      Оффтоп, извините. Ну кто скажите утверждает такие аббревиатуры?

      — Ты где работаешь?
      — Сейчас в ИПУ…

      — С Новым годом, дорогие коллеги ИПУ РАНцы…
        +2
        Да, верно, и сейчас занимаются. Я не оттуда, я с Юга России.
        У меня как один из источников в диссертации используется книга трех товарищей из ИПУ РАН: Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Социальные сети: модели информационного влияния, управления и противоборства.
        Правда они немного наворотили моделей в этой книге, но в целом классификация дана верно.
          0
          Ага, собственно из доклада Новикова я про это и узнал.
        0
        Очень хорошая статья.
        Показывает, открытость для манипуляций интернет сообществ.
        Ладно, в России все закончилось пшиком. А Ливию и Египет до сих пор калбасит…
          +1
          Вот визуализации революции в Египте, сделано в Гефи gephi.org/2011/the-egyptian-revolution-on-twitter/
          Не знаю правда, проводились ли исследования предпосылок.
          Я в отзыве о книге Код Дурова выразил опасения в плане утекания из под юрисдикции России методов и средств информационного воздействия (рост Фэйсбука, а его сервера и управление им в США и подобные тренды).
          Топик был заминусован, но мысль была такой, как гипотетический пример: в случае чего, власти США смогут манипулировать любым общественным мнением, если пользователей Фэйсбука в этой стране подавляющее большинство. Например берут и не блокируют группу (слишком глупо и не работает), а подменяют лидеров мнений и информационных брокеров оперативниками ФБР, а они уже могу управлять толпой, или свести на нет любую координацию действий. Пока станет известна подмена задача будет уже решена.
            0
            Поэтому я за построение распределенных соц, сетей типа проанонсированной на Хабре Пандоры. Все равно у кого штурвал — если он не у меня я несогласен.
              0
              Это не защитит от подмены.
            –1
            Ничего в России не закончилось. Всё только начинается. Провоцируемый нелепыми, с точки зрения экономики решениями путина, экономический кризис сильно расширит социальную базу протеста, вот тогда и начнётся самое интересное. Как не регулируй интернет, сколько не наводняй его троллями, но режим в котором 30 процентов активного населения занимается не производительным трудом, а защитой режима долго не протянет. Вопрос только в какие формы в результате выльется протест.
              0
              > Провоцируемый нелепыми…

              Вы степень «нелепости» какими критериями измеряли?

              Эх, еслиб в мире было все так просто классифицировать…
                0
                Увеличение финансирования силовых структур существенном сокращении расходов на образование и здравоохранение. Невиданное увеличение расходов на оборонку в сегодняшнем мире не способно обеспечить прорыв в технологиях, как это было 50 -70 лет назад. Мир изменился и сегодня высокие технологии военными уже не рождаются, а потребляются. Это мировая тенденция. Особенно это бесперспективно на фоне разрушения среднего и высшего образования.
                На а критерий — падение производства и это при удивительно выгодной цене на энергоносители.
                На мой взгляд силы нужно бросать на анализ мировой экономической ситуации и путей выхода из мирового экономического кризиса, а не на контроль интернета.
                Впрочем эта площадка открыта не для политических дискуссий, поэтому я диалог заканчиваю.
                0
                Я думаю взрыва не произойдет, будет плавно изменяться курс власти. я верю, что технологии спасут мир.
                Управлять государством должны квалифицированные программисты и сисадмины с экономическим образованием, они быстро наладят электронные системы документооборота и учета. А это в свою очередь приведет к глобальному уменьшению количества чиновников, юристов и прочих дармоедов, кормящихся на кривизне экономической теории и права.
                Этот процесс уже идет, но очень медленно.
                  0
                  Должны. Вопрос как это обеспечить в стране в которой не работают выборы, лидер несменяем, социальные лифты закупорены, а для выбора людей в верхние эшелоны власти включен механизм отрицательной селекции?
                    0
                    Перед началом второй мировой примерно также считали представители стремительно развивавающейся физики…
                0
                Что означают вершины? Что означают ребра? Анализ betweeness и centrality графа в котором вершин больше чем ребер — очень странная идея.

                Чтобы графики не были пустыми, надо использовать логарифмическую шкалу. Хотя в данном случае их пустота скорее следствие странных данных и методики.
                  0
                  Первый комментарий по существу статьи, а не по предмету исследования.
                  Вершины — блогеры в ЖЖ.
                  Ребра — направленная связь от автора комментатора к автору записи в блоге. В прошлой статье об этом написано. Получается ориентированный граф.

                  >>Анализ betweeness и centrality графа в котором вершин больше чем ребер — очень странная идея. — такой уж набор данных получился. Граф действительно не плотный. Соглашусь про лог шкалу, просто в Гефи обычные шкалы уже готовы, потому использовал их)

                  Про методику вы верно догадываетесь: мы не собирали вообще все комментарии в оппозиционных и политических блогах ЖЖ. Только те, в которых встречали определенные ключевые слова с упоминанием политических партий, персон, и слов вроде «выборы» (я не стал приводить это в статье). Проблема была в том, что не все комментарии релевантные, в основном по существу комментариев мало, зато пустословия, оскорблений, выяснения личных отношений хоть отбавляй. К тому же не решена проблема выявления комментариев от аккаунтов-ботов. Поэтому было решено составить несколько упрощенную семантическую модель релевантного комментария о выборах используя язык запросов Яндекса.

                Only users with full accounts can post comments. Log in, please.