Pull to refresh

Статистика записей Живого Журнала

IT-companies
top
Под катом небольшое статистическое исследование, которое может быть просто интересно, а может быть полезно тем, кто разрабатывает или поддерживает сервисы на основе Живого Журнала.
Вторая версия исследования.

Метод исследования


Для исследования были взяты дневники пользователей со страницы статистики. По пять дневников с каждых 10 страниц. Всего было извлечено 200 пользователей. У каждого были загружены все записи с 1999 года за исключением подзамочных и 18+. Вышло 190 439 записей. Из записей, в свою очередь, были извлечены заголовки, теги, текст без HTML-разметки и количество комментариев. Выборка не очень большая, меньше процента, но  достаточно репрезентативная в качестве основы, на которой можно проектировать сервисы для ЖЖ. В некоторых графиках были исключены пользователи первой пятерки, т.к. создавали очень большой шум. :) Итак, поехали.

Записи


Наличие заголовка

TitleNoTitle
Зеленый — есть, серый — нет.

Длина заголовка в символах

TitleLength

Длина записи в символах

ArticleLength
Один столбик — 1000 символов.

Статей в месяц

ArticlesPerMonth

По дням недели

PostDayOfWeek

По часам

PostHour

Теги



Есть или нет?

TagNoTag
Зеленый — есть, серый — нет.

Количество тегов

TagsCount

Длина тега

TagLength

Популярные теги

PopularTags

Комментарии



Количество комментариев к записи

CommentsCountLine

Количество комментариев к записи в виде пирога

CommentsCountPie

Количество комментариев от объема текста

 CommentsTextLenght

Столбик — 1000 символов.
80 000 — глюк: в текст записи запарсились сами комментарии.

П.С.


Надеюсь, что этот анализ был кому-нибудь интересен. А может он даже сделает какой-то проект чуточку удобнее. Я с удовольствием извлеку другие метрики из базы, если они кому-то понадобятся.

П.П.С.


К следующей неделе сделаю более репрезентативную выборку из 10 000 пользователей с записями только по 2006 год.
Tags:
Hubs:
Total votes 67: ↑61 and ↓6 +55
Views 514
Comments Comments 62