Как стать автором
Обновить

Статистика Хабрахабра

Время на прочтение4 мин
Количество просмотров185K
Почти неделя прошла с исполнения хабрахабру 6 лет. Было бы очень интересно посмотреть на графики роста показателей сайта. Т.к. стандартная статистика малоинформативная, решено было собрать всю информацию своими руками и проанализировать. И так, почти неделя парсинга и сбора информации и получены следующие интересные данные(скрытые/удаленные посты/пользователи и их комментарии не учтены):
  • Больше всего постов написал alizar — 4298, рекорд 12 постов в день поставлен 18 октября 2006
  • Больше всего комментариев написал VolCh — 19323, установив личный рекорд 27 июля 2011 года в количестве 140 комментариев.
  • Больше всех опубликовал постов в день freetonik —21 топик 26 августа 2007
  • Максимальная активность хабры в день — опубликовано 105 топиков: 18 февраля 2010 и 22 июня 2008 года.
  • Максимальная активность хабры в месяц — опубликовано 2055 топиков в марте 2010
  • Среднее значение кармы: +7,83
  • Средний рейтинг топика: +24,75
  • Всего комментариев: 3 703 022.
  • Средний рейтинг комментария: +0,98
  • Максимальное количество оставленных комментариев — 1 июля 2011 в количестве 4936 штук.
  • 25% из всех опубликованных топиков были перенесены в черновики
  • Самый комментируемый топик habrahabr.ru/post/123157 собрал 2252 комментария

Красивые графики, методы измерения, база с полученными данными, «хаброаномалии» — все это под катом.


y — количество публикуемых топиков в месяц; x — временная шкала, 1 деление — месяц

y — количество публикуемых комментариев в месяц; x — временная шкала, 1 деление — месяц

y — количество регистраций пользователей в месяц; x — временная шкала, 1 деление — месяц
Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел. Возможно пользователей, зарегистрированных в этот период массово забанили/перевели в read-only.

y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — час
Данный график был получен путем подсчета количества опубликованных топиков в данный час за 6 лет. Если брать меньшие рамки, возможно сдвижения графика.

y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — сутки

y — средняя итоговая оценка топиков за все время; x — временная шкала, 1 деление — сутки
Как оказалось, больше плюсов набирают топики опубликованные на выходных. Возможно это связано с тем, что на выходных их публикуют в два раза меньше.


y — количество пользователей с количеством топиков, указанных в х шкале; x — количество топиков пользователя
Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.

y — количество пользователей с количеством комментариев, указанных в х шкале; x — количество комментариев пользователя
Как видно из графика, около 15% пользователей постят 1-5 комментария и прекращают свою активность.


y — количество пользователей с количеством кармы, указанной в х шкале; x — количество кармы пользователя
20% пользователей имеют нулевую карму. Радует перевес количества пользователей в положительной части.

Как считалось


Т.к. прямого доступа к БД хабры нет, то пришлось искать обходные пути. Если вы замечали, то у каждого топика есть его номер в адресной строке, т.е. мы можем просмотреть самую первую запись на хабре habrahabr.ru/post/1. Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером(на тот момент последний топик, у которого уже истек срок голосования). Из них существуют 121 641 топика, из которых 25 949 перемещены в черновики и еще несколько сотен оказались пустыми, наподобие этого: habrahabr.ru/company/muk/blog/119653. Все топики были сохранены в файлы для дальнейшего парсинга, заняли почти 10Гб. Далее каждый топик парсился следующим образом: брался автор топика, рейтинг, дата публикации, после этого парсились комментарии, из них брался автор, рейтинг комментария и дата. У нас получилось три таблицы. После получения всех пользователей необходимо было получить для каждого значение его кармы и рейтинг. При таком подходе посчитались все, кто хотя бы раз запостил пост или оставил комментарий. Все это выкачивалось и парсилось около недели в круглосуточном режиме. Софтинка для парсинга писалась в процессе поступления данных. Частота запросов к хабру не превышало 1 запроса в секунду.
Структура БД:

Скачать дамп базы (MSSQL backup) можно здесь (132Мб):

Хаброаномалии


Во время парсинга обнаружилась целая куча аномалий:

P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.

Добавлено:

y — количество постов пользователей, зарегистрированные в указанной х шкале; x — временная шкала, 1 деление — месяц
Из этой диаграммы следует, что больше всего написали топиков пользователи зарегистрировавшееся до середины 2008 года.


было бы очень интересно видеть еще такие данные:
* средний рейтинг топиков по часам (по дням есть, но так интереснее)
* среднее количества голосов за топик по часам по времени создания топика
* среднее количество комментариев на топики по часам именно по времени создания топика

такая информация может дать представление о том когда лучше публиковать, чтобы получить максимальную активность.

а вообще интересно было бы еще видеть суммарную статистику по тэгам и хабам, но я так понимаю что парсер придется запускать заново.





Есть раздел «Лучшее за все время». было бы интересно посмотреть на «Худшее за все время». habrahabr.ru/post/145045/#comment_4873731

Самые заминусованные топики:

Самые заминусованные комментарии:

Самые заминусованные пользователи (по карме):



Десятка первонахов по комментариям:


Замечу, что средний рейтинг первого комментария +3,59, тогда как средний рейтинг всех комментариев +0,98


Самый волнующий комментарий
Теги:
Хабы:
Всего голосов 230: ↑224 и ↓6+218
Комментарии134

Публикации

Истории

Ближайшие события

28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
2 – 18 декабря
Yandex DataLens Festival 2024
МоскваОнлайн
11 – 13 декабря
Международная конференция по AI/ML «AI Journey»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань