Под катом небольшое статистическое исследование, которое может быть просто интересно, а может быть полезно тем, кто разрабатывает или поддерживает сервисы на основе Живого Журнала.
Вторая версия исследования.

Метод исследования


Для исследования были взяты дневники пользователей со страницы статистики. По пять дневников с каждых 10 страниц. Всего было извлечено 200 пользователей. У каждого были загружены все записи с 1999 года за исключением подзамочных и 18+. Вышло 190 439 записей. Из записей, в свою очередь, были извлечены заголовки, теги, текст без HTML-разметки и количество комментариев. Выборка не очень большая, меньше процента, но  достаточно репрезентативная в качестве основы, на которой можно проектировать сервисы для ЖЖ. В некоторых графиках были исключены пользователи первой пятерки, т.к. создавали очень большой шум. :) Итак, поехали.

Записи


Наличие заголовка


Зеленый — есть, серый — нет.

Длина заголовка в символах



Длина записи в символах


Один столбик — 1000 символов.

Статей в месяц



По дням недели



По часам



Теги



Есть или нет?


Зеленый — есть, серый — нет.

Количество тегов



Длина тега



Популярные теги



Комментарии



Количество комментариев к записи



Количество комментариев к записи в виде пирога



Количество комментариев от объема текста

 

Столбик — 1000 символов.
80 000 — глюк: в текст записи запарсились сами комментарии.

П.С.


Надеюсь, что этот анализ был кому-нибудь интересен. А может он даже сделает какой-то проект чуточку удобнее. Я с удовольствием извлеку другие метрики из базы, если они кому-то понадобятся.

П.П.С.


К следующей неделе сделаю более репрезентативную выборку из 10 000 пользователей с записями только по 2006 год.