Как стать автором
Обновить

О Хабрахабре, статистике и… облаках тэгов

Время на прочтение 3 мин
Количество просмотров 1.1K
Здравствуйте!
Примерно месяц назад я написал статью, в которой представил на суд уважаемой хабрапублики несколько графиков. Графики как могли отражали историю развития этого сайта и пытались оценить качество контента на нем. Даже не знаю, удалось ли им добиться своей цели, но в целом статью встретили довольно тепло. Еще тогда я пообещал себе, что при возможности попытаюсь продолжить тему.

И снова о тематическом наполнении


В прошлый раз я пытался отразить тематическое наполнение Хабрахабра с помощью графика и круговых диаграм, которые оперировали количеством статей, принадлежащих той или иной категории блогов. И, если чесно, то считаю, что удалось это мне из рук вон плохо.

Я подумал, что ведь должны же быть какие-то способы отразить тематическое наполнение сайта во времени. К сожалению, гугление не дало результатов — ничего лучше старых-добрых графиков человечество пока не придумало. Но погодите! Ведь мы живем в эпоху Web 2.0 и одним из ее главных символов выступает… обычное облако тэгов. Вы все его видели множество раз, оно банально до невозможности и уже успело всем порядком надоесть своим присутствием на каждом втором сайте, да еще и в различных 3d-шно флешовых формах. Но, справедливости ради, облако тэгов обрело свою популярность именно потому, что очень хорошо отражает тематическое наполнение сайта. А что, если попробовать нарисовать облако тэгов и сделать его динамически изменяемым во времени? Такая себе машина времени тэгов. Дальше дело оставалось за малым: продумать, как это все будет выглядеть, сделать его подинамичнее, выделить вечер на реализацию задуманого на WPF и еще один вечер на рендеринг и кодирование в видео. То, что у меня получилось, я назвал «Tag Tornado» или «Смерч Тэгов». Увидеть, собственно, виновника торжества можно на следующем видео:

* я рекомендую смотреть видео на сайте ютуба в «большом» плеере и разрешении 480р
** так и не сумел подобрать музыку для ролика, оставляю ее выбор на зрителя. Устройтесь поудобнее, откинтесь на спинку кресла и наслаждайтесь

Как это работает?


Да очень просто это работает — названия блогов крутятся вокруг общего центра по кругу с постоянной угловой скоростью. Для каждого последовательного момента (в данном случае с шагом в два часа) рассчитывается «вес» каждого блога. Вес блога зависит от суммарной оценки статей в нем за период около двух недель, при чем оценка каждой статьи умножается на коефициент удаления момента ее публикации от момента, который мы рассматриваем. В общем, чем ближе была статья к даному моменту, тем больше ее оценка влияет на вес. После рассчета весов всех блогов для данного момента, они нормализируются и укладываются в промежуток [0;1] делением на максимальную оценку. Те блоги, чей максимальный вес ни разу не превысил 0,1 вообще выброшены.
Вес влияет на три параметра — чем он больше, тем меньше расстояние тэга от центра, больше размер шрифта и меньше прозрачность текста. Тэги отсортированы лексикографически. Ко всему этому добавлено несколько дополнительных коефициентов, которые обеспечивают общую плавность вылетов и влетов тэгов на «сцену».


Вместо заключения


Внимательный и занудный читатель заметит, что на видео крутятся все же не тэги, а блоги Хабрахабра, но у меня уже заготовлен ответ: дело в том, что тэгов слишком много и они слишком разные, поэтому без таблиц синонимов и семантических связей между тэгами подобная визуализация была бы не очень полезной — терялось бы слишком много важной информации. Визуализировать же категории, как в предыдущей статье, не имеет смысла, ибо их слишком мало.
Also, тэги иногда наползают друг на друга, но если смотреть в динамике, а не отдельные кадры, то читабельности это почти не мешает.
И да, что касается названия визуализации, сначала хотел назвать ее «водоворотом», но в результате пришел к выводу, что «атмосферная» аналогия с облаком тэгов будет лучше.
Спасибо за внимание.
Теги:
Хабы:
+50
Комментарии 39
Комментарии Комментарии 39

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн