Под катом небольшое статистическое исследование, которое может быть просто интересно, а может быть полезно тем, кто разрабатывает или поддерживает сервисы на основе Живого Журнала.
Вторая версия исследования.
Метод исследования
Для исследования были взяты дневники пользователей со страницы статистики. По пять дневников с каждых 10 страниц. Всего было извлечено 200 пользователей. У каждого были загружены все записи с 1999 года за исключением подзамочных и 18+. Вышло 190 439 записей. Из записей, в свою очередь, были извлечены заголовки, теги, текст без HTML-разметки и количество комментариев. Выборка не очень большая, меньше процента, но достаточно репрезентативная в качестве основы, на которой можно проектировать сервисы для ЖЖ. В некоторых графиках были исключены пользователи первой пятерки, т.к. создавали очень большой шум. :) Итак, поехали.
Записи
Наличие заголовка
Зеленый — есть, серый — нет.
Длина заголовка в символах
Длина записи в символах
Один столбик — 1000 символов.
Статей в месяц
По дням недели
По часам
Теги
Есть или нет?
Зеленый — есть, серый — нет.
Количество тегов
Длина тега
Популярные теги
Комментарии
Количество комментариев к записи
Количество комментариев к записи в виде пирога
Количество комментариев от объема текста
Столбик — 1000 символов.
80 000 — глюк: в текст записи запарсились сами комментарии.
П.С.
Надеюсь, что этот анализ был кому-нибудь интересен. А может он даже сделает какой-то проект чуточку удобнее. Я с удовольствием извлеку другие метрики из базы, если они кому-то понадобятся.
П.П.С.
К следующей неделе сделаю более репрезентативную выборку из 10 000 пользователей с записями только по 2006 год.