Как стать автором
Обновить

VK плачет, Social Graph смеется, Telegram наблюдает

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров14K

Скажи мне кто твой друг, и я скажу кто ты

Вы наткнулись на необычный проектик, который изучает дружеские коллективы, группы конкретного пользователя или группы профилей с помощью социального графа связей. Умею строить Портрет Пользователя, Портрет Группы, Карту Нетворкинга для соцсети ВК.

Портрет Группы: общие друзья/подписчики Влада и Кости
Портрет Группы: общие друзья/подписчики Влада и Кости
Один из графов по комментариям и лайкам на 35к профилей (общение под постами за некую неделю)
Один из графов по комментариям и лайкам на 35к профилей (общение под постами за некую неделю)

Зачем всё это? Изначально по приколу, но надеюсь, вы тут с благими намерениями.


Оглавление

1. Как читать свой граф или друга: построение графа

2. Портрет Пользователя

3. Портрет Группы

4. Карта Нетворкинга

5. Послесловие


1. Как читать свой граф или друга: построение графа

Как изучить граф:

Если вы построили граф на свою страницу, то достаточно посмотреть на имена в каждом кластере, тогда будет понятно, где друзья с вуза/школы/работы/секции/родной деревни и тд. Вот пример "моего" графа.

номера групп идут по убыванию участников
номера групп идут по убыванию участников

Но если решили узнать другого пользователя поближе, то имена не помогут, а наш "ультра-мега Портрет Пользователя 3000" раскроет все карты. Подробнее в главе Портрет Пользователя, где анализируется информация со страниц и подписки всех друзей и подписчиков.

Немного теории, понятной всем:

  • Модулярность - это мера крутизны того, как мы разбиваем граф на группы. Чем сильнее кучкуются вершины внутри группы и меньше связей между группами, тем круче модулярность (ближе к 1)

  • Разбиваем на кластеры (группы друзей/подписчиков): чтобы найти группы друзей/подписчиков, используем алгоритм Лувена и очень-очень-очень много оптимизаций (работа с большими графами – это не работа с малыми графами; банально, но факт). Общий алгоритм Лувена оценивает разбиение по модулярности и старается сделать её максимальной. По-простому: ищет такое разделение, где связей внутри групп много, а между группами мало

  • Размещаем точки-ноды:
    Изначально граф - это каша точек-пикч. Тут работает алгоритм, который считает вершины графа как частицы, которые тянутся и отталкиваются друг от друга (как магнит и металлические скрепки). Если вершины связаны, они тянутся друг к другу, а если нет - отталкиваются. Происходит постоянное обновление положения вершин, пока не найдется расположение, где все ноды будут в равновесии


2. Портрет Пользователя

Если для графа достаточно получить список друзей и подписчиков, то в Портрете Пользователя достаются страницы целиком вместе с подписками и другими открытыми данными, это занимает в среднем в 6 раз больше времени. Так вот, помимо графа, в Портрете Пользователя есть:

1) Граф

Ещё пару слов об оном. Граф разбит на группы близости друзей и подписчиков пользователя. У каждой группы есть свой цвет. Связи внутри группы имеют цвет этой группы, связи с другими группами – серые. Круги – друзья, квадраты – подписчики пользователя, самого пользователя на графе нет. Сплошная линия – дружеская связь. Пунктирная со стрелкой показывает "кто на кого подписан".

Функциональность. Все точки-пикчи можно перемещать. При нажатии (наведении) на ноду (точка-пикча) - подробная информация и подсветка всех его связей. При поиске - подсветка связей. Можно подсветить несколько человек, выбирая их на графе и в поиске. Поиск работает по любой части имени или ID. Рядом с легендой есть кнопка «Физика включена» - при перемещении ноды, связанной с другими, оные будут или не будут перемещаться вслед за перетаскиваемой нодой. Позволяет сделать кастомное расположение нод на свой вкус.

Подробная информация ноды включает в себя: имя (+ ссылка на профиль), номер группы на графе, статус страницы (публичная, приватная, забаненная, заблокированная, удалённая), ID, с кем дружит/на кого подписан, возраст, число друзей и подписчиков, город, родной город, образование, популярность в группе графа (работает примерно так: чем больше связей, тем больше популярность), связи (число связей с другими нодами графа), работу (+ ссылка на место работы), связи с другими группами (номера групп: процент связей с этими группами; выделенная группа – группа с которой больше всего связей, выделенная группа не всегда является группой, в которой находится оный профиль), активность (+ ссылка на активность).

Граф пользователя, разбитый на группы близости друзей и подписчиков. Один из друзей выделен, и показана информация о его профиле
Граф пользователя, разбитый на группы близости друзей и подписчиков. Один из друзей выделен, и показана информация о его профиле

2) Таблица коллективов

Мега таблица всего обо всём. Столбцы:

  • Коллектив – номер и цвет группы, которая на графе (одиночки – сборная солянка всех профилей, которые являются друзьями/подписчиками исследуемого профиля и у которых нет дружеской/подписочной связи с другими друзьями/подписчиками исследуемого).

  • Людей – количество профилей в группе

  • Из них подписчики – количество подписчиков исследуемого в оной группе (процент подписчиков от числа профилей (столбец Людей))

  • Общие друзья – см. главу про Портрет Группы

  • Связей: Внутри/Вне группы – внутри (суммарное число связей нод в этой группе между собой)/ вне группы (суммарное число связей нод этой группы с другими группами)

  • Возраст: Средний/Медиана/std – среднее/медиана/стандартное отклонение возраста группы

  • Пол: Ж/М – процент женских/мужских профилей в группе (преобладающий (≥80%* скорее всего) процент профилей выделяется жирным)

  • Друзей: Среднее/Медиана/std – среднее/медиана/стандартное отклонение друзей профилей группы

  • Подписчиков: Среднее/Медиана/std – среднее/медиана/стандартное отклонение подписчиков профилей группы

  • Страниц: Open/Privat/Ban – открытые/приватные/забаненные(удаленные, заблокированные) профили группы

  • Общие города – общие города профилей группы (отсортированы по убыванию, «преобладающие» (≥5*) города выделены жирным)

  • Общие ВУЗы – общие вузы профилей группы (отсортированы по убыванию, «преобладающие» (≥3*) вузы выделены жирным)

  • Общие школы – общие школы профилей группы (отсортированы по убыванию, «преобладающие» (≥2*) школы выделены жирным)

  • Общее место работы – общие места работы профилей группы (отсортированы по убыванию, «преобладающие» (≥2*) места работы выделены жирным, + ссылки на места работы)

  • Колич. подписок: Среднее/Медиана/std – среднее/медиана/стандартное отклонение количества подписок профилей оной группы

  • Совпадение фамилий – совпадающие фамилии (однофамильцы и родственники) профилей группы (отсортированы по убыванию, «преобладающие» (≥3*) фамилии выделены жирным)

  • 🥸 – цвет группы

Таблица Коллективов (1-я часть)
Таблица Коллективов (1-я часть)

* выделены более редкие/важные события, числа могут быть слегка другими

3) География

В профилях пользователи обычно указывают в разделе "город" своё нынешнее место жительства, "родной город" и так понятно. Учитывайте, что далеко не все указывают эту информацию на странице, поэтому можно судить о группе в целом по нескольким ее участникам.

Выводятся города, где хотя бы 2 человека с одной группы
Выводятся города, где хотя бы 2 человека с одной группы

Пример: Волгоград в "родном городе" указали 2 человека из зеленой группы, а на графике "город" эта зеленая группа разбрелась еще на Москву и Питер. Это одноклассники - кто-то поступил в столицы, многие остались. К аналогичному выводу можно прийти, смотря странички в боте на «своих» друзей.

Функциональность. Кликая на группы справа, они убираются/появляются на графиках, двойной клик – смотрим выделенную группу. При наведении на столбец графика показываются: город, число пользователей группы с этим городом, группа. Можно перемещать графики и увеличивать графики, если мелко или не влезла инфа.

4) Лидеры групп

Здесь всё просто, топ профилей с наибольшим количеством связей внутри своей группы с некоторыми оптимизациями ранжирования (по убыванию).

Функциональность. Наводим на круг-профиль – видим имя и количество связей. Кликая на группы справа, они убираются/появляются на графике, двойной клик – смотрим выделенную группу. Можно перемещать графики и увеличивать графики, если мелко или не влезла инфа.

5) Возраст

Возраст разбит на группы, возрастные группы и пол. На этом шаге можно идентифицировать группу, которую я описал как "родственники", ведь они попали в 40+ и пошли в Одноклассники 😎

Функциональность. Наводим на столбец/линию «Общее» – видим возрастную группу, число попавших в нее из конкретной группы, номер группы. Кликая на группы справа, они убираются/появляются на графике, двойной клик – смотрим выделенную группу. Можно перемещать графики и увеличивать графики, если мелко или не влезла инфа.

6) Анализ сообществ

Самой первой изображена круговая диаграмма типов сообществ разбитых по категориям ("Юмор", "Новости", “Остальное до 1%” и тд). Это общие интересы группы по всем их подпискам (пример: у 10 профилей по 100 подписок, на диаграмме учтены типы всех 1000 сообществ). Функциональность. При наведении/тапе показывается тип категории и число подписок группы на этот тип категории.

Вторым идёт график "топ слов" из названий сообществ. По большей части смысловая нагрузка пересекается с последним графиком общих пабликов, но подписки информативнее всего описывают группу-коллектив. Особое внимание на всякие "Подслушано", ведь это могут быть районные/городские/учебные/рабочие паблики. Напоминаю, что во всем анализе мы субъективно говорим о группе в целом по некоторым участникам. Функциональность. При наведении/тапе показывается встречаемость слова в названиях сообществ и само слово. Можно перемещать график вверх/вниз, если мелко или не влезла инфа.

Третий график общих пабликов. Сразу видно какое отношение данная группа-коллектив имеет к анализируемому профилю. Функциональность. При наведении/тапе показывается название сообщества, количество профилей группы, подписанных на него, и тематика ("Блог", "Музыкант" и тд) сообщества. Можно перемещать график вверх/вниз, если мелко или не влезла инфа. Черные столбцы – паблики с тематикой: «Городское сообщество». «Преобладающие» (≥6*) паблики выделены жирным.

Можно перемещать графики, если столбцов много. При наведении – доп. инфа, если не видно – подвинь график влево
Можно перемещать графики, если столбцов много. При наведении – доп. инфа, если не видно – подвинь график влево

7) Расширения

Есть несколько расширений, которые увеличивают возможности Портрета Пользователя. Их можно использовать как вместе, так и по отдельности. Кастомные списки позволяют дополнительно к исследуемой странице передавать списки друзей и подписчиков. Это могут быть потенциальные друзья, скрытые или иные, которых хочется или не хочется видеть на графе. При этом исследуемая страница может быть непубличная, удаленная, замороженная, заблокированная, забаненная или публичная. Непубличные списки (ключ) позволяют сделать граф, например на своего непубличного друга, который является вашим другом или подписчиком.

Бонус. Метрики групп

Самые увлеченные котята могут изучить метрики графа по группам. Краткое описание предоставлено, но может придется дополнительно погуглить и не быть гуманитарием (в будущем и для них распишу, какие циферки о чём могут говорить)


3. Портрет Группы

Портрет Группы показывает граф общих коллективов и общих друзей/подписчиков группы анализируемых профилей, связи профилей между собой до 2-х рукопожатий (1 рукопожатие – друг/подписчик, 2 – общие друзья).

1) Граф

Отличия этого графа от графа Портрета Пользователя в следующем:

  • Дополнительно в легенде показывается процент принадлежности профилей группы к каждому из анализируемых. Пример: в группе 5 все профили – это друзья/подписчики Кости и только 2% из них являются друзьями/подписчиками Влада

  • Дополнительно информация ноды включает в себя: с кем дружит/на кого подписан из анализируемых профилей

Портрет Группы: общие друзья/подписчики Влада и Кости
Портрет Группы: общие друзья/подписчики Влада и Кости

2) Таблица коллективов

Отличия от Портрета Пользователя в следующем:

  • Рассчитывается всё для всех анализируемых профилей, друзья/подписчики считаются общими для всей группы исследуемых профилей

  • Людей – количество профилей в группе, количество для каждого из исследуемых, и «общие для всех» - общие друзья/подписчики всех исследуемых

  • Из них подписчики – количество подписчиков для каждого из исследуемых в оной группе (процент подписчиков от числа профилей (столбец Людей: конкретный исследуемый))

  • Общие друзья – пересечение общих друзей/подписчиков для каждых 2-х, 3-х, 4-х, и тд исследуемых из всех исследуемых профилей (показываются только существующие общие)

Всё экстраполируется с одного исследуемого в Портрете Пользователя на всех исследуемых в Портрете Группы для графа, таблицы коллективов, графиков географии, лидеров, возраста и анализа сообществ. Бонус: дополнительно к Портрету Группы строится Карта Нетворкинга для 2-х рукопожатий всех исследуемых.


4. Карта Нетворкинга

Карта Нетворкинга показывает граф связей исследуемых профилей между собой до 3-х рукопожатий включительно. Позволяет найти связи через посредников между исследуемыми профилям. Одно рукопожатие – дружеская/подписочная связь, два рукопожатия – связь через общего друга/подписчика, три рукопожатия – по аналогии.

Обозначу без повторений отличия Карты Нетворкинга от Портрета Пользователя:

1) Граф

На графе изображены только друзья/подписчики до 3-го колена (друг друга – это 2-е колено). Друзья/подписчики первого рукопожатия исследуемого имеют с ним одинаковый цвет (“зеленый”, “синий”, “красный” и тд), Если круги первых рукопожатий каждого из двух исследуемых имеют общие связи, то цвет этих связей – смесь цветов исследуемых. У каждого исследуемого есть свой цвет, чтобы можно было удобно раскрашивать связи 2-го и 3-го колена. Исследуемые расположены по кругу.

Карта Нетворкинга 3-х исследуемых до 3-х рукопожатий
Карта Нетворкинга 3-х исследуемых до 3-х рукопожатий

Функциональность. Внизу графа есть кнопка «Физика включена».

Подробная информация ноды включает в себя: имя (+ ссылка на профиль), статус страницы (публичная, приватная, забаненная, заблокированная, удалённая), ID, возраст, город, родной город, школы, образование, работу (+ ссылка на место работы), список с кем дружит/на кого подписан (+ ссылка на профиль, жирные - исследуемые), активность (+ ссылка на активность).

Карта Нетворкинга 12-ти исследуемых до 2-х рукопожатий
Карта Нетворкинга 12-ти исследуемых до 2-х рукопожатий

5. Послесловие

Будьте хорошими и самое главное — помните! Вся информация…

Теги:
Хабы:
Всего голосов 16: ↑14 и ↓2+17
Комментарии8

Публикации

Истории

Работа

Ближайшие события