
Под катом небольшое статистическое исследование, которое может быть просто интересно, а может быть полезно тем, кто разрабатывает или поддерживает сервисы на основе Живого Журнала.
Вторая версия исследования.
Метод исследования
Для исследования были взяты дневники пользователей со страницы статистики. По пять дневников с каждых 10 страниц. Всего было извлечено 200 пользователей. У каждого были загружены все записи с 1999 года за исключением подзамочных и 18+. Вышло 190 439 записей. Из записей, в свою очередь, были извлечены заголовки, теги, текст без HTML-разметки и количество комментариев. Выборка не очень большая, меньше процента, но достаточно репрезентативная в качестве основы, на которой можно проектировать сервисы для ЖЖ. В некоторых графиках были исключены пользователи первой пятерки, т.к. создавали очень большой шум. :) Итак, поехали.
Записи
Наличие заголовка

Зеленый — есть, серый — нет.
Длина заголовка в символах

Длина записи в символах

Один столбик — 1000 символов.
Статей в месяц

По дням недели

По часам

Теги
Есть или нет?

Зеленый — есть, серый — нет.
Количество тегов

Длина тега

Популярные теги

Комментарии
Количество комментариев к записи

Количество комментариев к записи в виде пирога

Количество комментариев от объема текста

Столбик — 1000 символов.
80 000 — глюк: в текст записи запарсились сами комментарии.
П.С.
Надеюсь, что этот анализ был кому-нибудь интересен. А может он даже сделает какой-то проект чуточку удобнее. Я с удовольствием извлеку другие метрики из базы, если они кому-то понадобятся.
П.П.С.
К следующей неделе сделаю более репрезентативную выборку из 10 000 пользователей с записями только по 2006 год.