varagian13 июн 2016 в 06:19

Граф цитирования статей Хабрахабра

5 мин

23K

Big Data * Data Mining * Визуализация данных * Математика *

+59

Комментарии 46

Tiberius 13 июн 2016 в 07:11

Отличная статья! Огромное спасибо за проделанную работу!

Последнюю амёбу надо поставить себе на рабочий стол, выглядит, как делящаяся клетка;)))

НЛО прилетело и опубликовало эту надпись здесь

Loriowar 13 июн 2016 в 08:10

Замечательно, спасибо. Не думал что предложение так быстро материализуется.

boombick 13 июн 2016 в 08:42

Круто. Большое спасибо за работу.

Meklon 13 июн 2016 в 08:42

Очень круто. А чем анализ делался? Библиотеки на Python есть для подобного?

varagian 13 июн 2016 в 09:27

Все трансформации шли посредством requests (запросы к Хабру) + BeautifulSoup4 (парсим HTML) + pandas (работаем с табличками и подсчет рейтингов). Графы анализировались и визуализировались в Gephi.

Meklon 13 июн 2016 в 10:57

Все-таки надо освоить Pandas. А то я какой-то ужас с гетерогенными массивами в городу, чтобы таблицы получить)

varagian 13 июн 2016 в 14:07

Еще в копилку numpy, scipy, matplotlib и бонусом маленький модуль tqdm

Meklon 13 июн 2016 в 14:30

Меня еще очень seaborn порадовал. На редкость приятные и гармоничные графики рисует. Полный же восторг:

Meklon 13 июн 2016 в 14:37

Оооо… progress bar! Я счастлив. Приходилось извращаться) Как в этом проекте, например:
https://github.com/meklon/DAB_analyzer

Ermako 14 июн 2016 в 08:54

Советую вот этот пост почитать.
habrahabr.ru/post/276725

varagian 14 июн 2016 в 08:56

Единственное, мне показалось, что эта штука log_progress только для IPython, нет?

Meklon 14 июн 2016 в 11:29

Причем только для Jupiter среды. Узковато.

Meklon 14 июн 2016 в 11:51

Спасибо, красиво, но у меня не блокнот, а более или менее полноценная программа консольная. Универсальность, да. Сейчас очень симпатично выглядит.

Meklon 13 июн 2016 в 11:30

Gephi — полный восторг. Просто кластерный анализ без графов тоже может, насколько я понимаю?

varagian 13 июн 2016 в 11:32

Gephi заточен под графы (точнее даже под визуализацию графов), если нужен ML\DM, то почему бы не глянуть на sklearn?

Meklon 13 июн 2016 в 12:13

О. То, что надо. Спасибо.

Stas911 13 июн 2016 в 13:13

Из pandas в gephi есть готовый экспорт?

varagian 13 июн 2016 в 14:00

Pandas всё же сделан для обработки неструктурированных данных (например, табличных с i.d.d.), а Gephi для визуализации структурированных (конкретнее для графов).

Для работы с графами в python есть NetworkX и в нём есть экспорт в Gephi — см. write_gefx.

Еще Gephi умееть работать с простыми графами в XML, поэтому иногда проще сгенерить такую XML-ку обычными print — например, если граф достаточно большой и не хочется его материализовать в памяти python-интерпретатора. Для примера, кусочек такой XML-ки ниже:

XML-представление графа в Gephi

<?xml version='1.0' encoding='utf-8'?>
<gexf version="1.1" xmlns="http://www.gexf.net/1.1draft" xmlns:viz="http://www.gexf.net/1.1draft/viz" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/XMLSchema-instance">
  <graph defaultedgetype="undirected" mode="static">
    <nodes>
      <node id="presentation" label="presentation" />
      <node id="rust" label="rust" />
      <node id="css" label="css" />
     ...
      </nodes>
    <edges>
      <edge id="0" source="presentation" target="soft" weight="0.08333333333333333" />
      <edge id="1" source="presentation" target="android" weight="0.01639344262295082" />
      <edge id="2" source="rust" target="virus" weight="0.01694915254237288" />
    ....
  </edges>
  </graph>
</gexf>

Stas911 13 июн 2016 в 20:06

Понятно, спасибо. А что вы имели ввиду, когда писали, что pandas для неструктурированных, если там все на DataFrames которые суть те же таблицы? Или я не понял что-то?

varagian 13 июн 2016 в 20:21

Неструктурированные данные — это каждая строка — точка, а каждая колонка — это переменная, причем на точках нет структуры т.е. про точки говорят, что они i.i.d. — независимы и одинаково распределены (вот переход тут немного упростил конечно).

В случае с графом между точками есть отношение — edge(X,Y), то есть точки уже не независимы, а связаны между собой.

DataFrames задают таблицы, в которых подразумевается, что каждая строка — это точка и когда мы строим, ну например, линейную регрессию Xw = y мы в явном виде подразумеваем, что точки из X в R^n независимы и у X в точности n колонок и каждая колонка — это переменная, а каждая строка — это точка в R^n.

Конечно, при желании можно таблицами в pandas задавать структурированные данные (как графы, например) и самому ввести все нужные операции, но встроенных методов работы со структурированными данными в духе add_edge там нет.

Ermako 14 июн 2016 в 08:58

А не смотрели в сторону graph_tool? Там есть готовые алгоритмы кластеризации и много разной визуализации.

varagian 14 июн 2016 в 09:40

Неплохо, нужно будет попробовать в последующем анализе. Только с ссылкой какие-то проблемы — видимо без "d" на конце: https://graph-tool.skewed.de

Ermako 14 июн 2016 в 09:42

Да, извиняюсь, опечатка.

Amareis 13 июн 2016 в 09:37

If it exists, there is ~~porn~~ Python library of it. No exceptions.

Meklon 13 июн 2016 в 10:56

Не так давно на Python подсел и именно это очень радует)

varagian 13 июн 2016 в 14:01

Однажды попробовав Python, уже не могу переключиться назад :-)

Meklon 13 июн 2016 в 14:34

Печалит только то, что у меня часто отдельная программа одноразовая. Чисто посчитать и вывести конкретные данные.

varagian 13 июн 2016 в 14:46

На самом деле скриптовые языки для этого и нужны — "склеить вот это вот всё". У меня тоже самое — нужно для какой-то статьи поставить эксперименты: качаем, форматируем, трансформируем, склеиваем, запускаем, меряем и тадаам — результаты и графики.

Хотя мы сейчас довольно интересное демо пилим, где основные вычисления идут на python, а react даёт пользователю возможность поиграть через браузер.

Meklon 13 июн 2016 в 15:09

У меня к этому еще добавляются датчики и железяки слепленные в одном экземпляре на жвачке и изоленте. Причём иногда как добавочный модуль к оборудованию за пару миллионов)

Denis_Minin 13 июн 2016 в 16:05

Долгая работа я полагаю, спасибо за это!

LoadRunner 14 июн 2016 в 07:20

Я так понимаю, учитывалось цитирование только в статьях?
Или комментарии тоже учитывались? Было бы интересно посмотреть на такой граф тоже.

varagian 14 июн 2016 в 07:41

Только статьи.

Loriowar 14 июн 2016 в 18:44

Коли разок "выстрелило", то попробую ещё раз предложить идею анализа, поддержав и развив мысль LoadRunner: круто было бы сделать аналогичные исследования, но для комментов. Лично мне, в голову приходят следующее интересности:

кто ни кого ссылается в комментариях, то бишь группы по интересам;
зависимость количества комментариев пользователя от их качества (кто пишет "редко но метко", а кто берёт количеством);
как часто в одной ветке встречаются одни и те же лица, то есть, например, гипотеза: " Milfgard и Meklon очень часто материализуются в одном треде";
"магическая" корреляция (или её отсутствие) между размером комментария и рейтингом;
какая-нибудь статистика про большие комментарии и их "качество": периодически встречаются достойнейшие высказывания, которые тянут на статью, но выражены в формате комментария;
статистика о количество пользователей в одной ветке обсуждения: существуют ли длинные обсуждения с большим вовлечением народа или это удел нескольких пользователей, которые решили уйти подальше и поглубже в дебаты/споры/etc; есть ли связь глубины и полезности как в абсолютном отншении (суммы плюсов и минусов за комментарии в ней), так и в относительном (то есть чем длиннее ветка, тем более "полезным" получается каждый комментарий в ней в среднем) и тд;
просто "общая температура по больнице" и топ глубоко обсуждаемых статей, то есть оценить статью не общим количеством комментариев, а количеством обсуждений и их глубины (например, ветка в 10-15 комментариев гораздо содержательнее чем последовательное количество из такого же количества несвязанных сообщений).

Ну и, как говорится: "Сила Habr'ы в комментариях" так что их обязательно нужно всесторонне изучить.

varagian 14 июн 2016 в 19:01

Ок, была такая магистерская работа в вышке, которая до Хабра не добралась, как я не старался пинать автора — человек собрал комменты и кластеризовал юзеров по типу комментирования — в духе "общительный" или там "молчун" и тд.

Мне все хочется повторить, собрать и выложить такие данные, но это будет нетривиально.

Loriowar 14 июн 2016 в 19:37

Пните ещё разок… авось получится: достанет пыльный диссер из закромов родины и навояет… статистика должна быть интересной.

Таки да работа нетривиальная, я как представляю сколько всего нужно сделать для такого анализа… но зато и результат шикарным обещает быть.

Meklon 14 июн 2016 в 21:22

Мы скорее часто устраиваем беспредел в комментариях, когда синхронно появляемся. Насчет корреляции — почти уверен, что я всегда появляюсь в тех тредах, где отписался Milfgard, но не наоборот. Можно еще проверить зависимость между упоминанием человека и его появлением в треде.

Milfgard 14 июн 2016 в 23:26

Вот яркий пример «наоборот» )

LoadRunner 15 июн 2016 в 03:40

А я в таких частых случаях вообще Вас обоих путаю — кто из вас кто и приходится пару секунд вспоминать. Я не сторонник теории заговоров, но всё это крайне подозрительно, потому что одновременное появление чаще как раз без упоминания.