Почти неделя прошла с исполнения хабрахабру 6 лет. Было бы очень интересно посмотреть на графики роста показателей сайта. Т.к. стандартная статистика малоинформативная, решено было собрать всю информацию своими руками и проанализировать. И так, почти неделя парсинга и сбора информации и получены следующие интересные данные(скрытые/удаленные посты/пользователи и их комментарии не учтены):
Красивые графики, методы измерения, база с полученными данными, «хаброаномалии» — все это под катом.
y — количество публикуемых топиков в месяц; x — временная шкала, 1 деление — месяц
y — количество публикуемых комментариев в месяц; x — временная шкала, 1 деление — месяц
y — количество регистраций пользователей в месяц; x — временная шкала, 1 деление — месяц
Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел. Возможно пользователей, зарегистрированных в этот период массово забанили/перевели в read-only.
y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — час
Данный график был получен путем подсчета количества опубликованных топиков в данный час за 6 лет. Если брать меньшие рамки, возможно сдвижения графика.
y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — сутки
y — средняя итоговая оценка топиков за все время; x — временная шкала, 1 деление — сутки
Как оказалось, больше плюсов набирают топики опубликованные на выходных. Возможно это связано с тем, что на выходных их публикуют в два раза меньше.
y — количество пользователей с количеством топиков, указанных в х шкале; x — количество топиков пользователя
Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.
y — количество пользователей с количеством комментариев, указанных в х шкале; x — количество комментариев пользователя
Как видно из графика, около 15% пользователей постят 1-5 комментария и прекращают свою активность.
y — количество пользователей с количеством кармы, указанной в х шкале; x — количество кармы пользователя
20% пользователей имеют нулевую карму. Радует перевес количества пользователей в положительной части.
Т.к. прямого доступа к БД хабры нет, то пришлось искать обходные пути. Если вы замечали, то у каждого топика есть его номер в адресной строке, т.е. мы можем просмотреть самую первую запись на хабре habrahabr.ru/post/1. Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером(на тот момент последний топик, у которого уже истек срок голосования). Из них существуют 121 641 топика, из которых 25 949 перемещены в черновики и еще несколько сотен оказались пустыми, наподобие этого: habrahabr.ru/company/muk/blog/119653. Все топики были сохранены в файлы для дальнейшего парсинга, заняли почти 10Гб. Далее каждый топик парсился следующим образом: брался автор топика, рейтинг, дата публикации, после этого парсились комментарии, из них брался автор, рейтинг комментария и дата. У нас получилось три таблицы. После получения всех пользователей необходимо было получить для каждого значение его кармы и рейтинг. При таком подходе посчитались все, кто хотя бы раз запостил пост или оставил комментарий. Все это выкачивалось и парсилось около недели в круглосуточном режиме. Софтинка для парсинга писалась в процессе поступления данных. Частота запросов к хабру не превышало 1 запроса в секунду.
Структура БД:
Скачать дамп базы (MSSQL backup) можно здесь (132Мб):
Во время парсинга обнаружилась целая куча аномалий:
P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.
Добавлено:
y — количество постов пользователей, зарегистрированные в указанной х шкале; x — временная шкала, 1 деление — месяц
Из этой диаграммы следует, что больше всего написали топиков пользователи зарегистрировавшееся до середины 2008 года.
Самые заминусованные топики:
Самые заминусованные комментарии:
Самые заминусованные пользователи (по карме):
Десятка первонахов по комментариям:
Замечу, что средний рейтинг первого комментария +3,59, тогда как средний рейтинг всех комментариев +0,98
Самый волнующий комментарий
- Больше всего постов написал alizar — 4298, рекорд 12 постов в день поставлен 18 октября 2006
- Больше всего комментариев написал VolCh — 19323, установив личный рекорд 27 июля 2011 года в количестве 140 комментариев.
- Больше всех опубликовал постов в день freetonik —21 топик 26 августа 2007
- Максимальная активность хабры в день — опубликовано 105 топиков: 18 февраля 2010 и 22 июня 2008 года.
- Максимальная активность хабры в месяц — опубликовано 2055 топиков в марте 2010
- Среднее значение кармы: +7,83
- Средний рейтинг топика: +24,75
- Всего комментариев: 3 703 022.
- Средний рейтинг комментария: +0,98
- Максимальное количество оставленных комментариев — 1 июля 2011 в количестве 4936 штук.
- 25% из всех опубликованных топиков были перенесены в черновики
- Самый комментируемый топик habrahabr.ru/post/123157 собрал 2252 комментария
Красивые графики, методы измерения, база с полученными данными, «хаброаномалии» — все это под катом.
y — количество публикуемых топиков в месяц; x — временная шкала, 1 деление — месяц
y — количество публикуемых комментариев в месяц; x — временная шкала, 1 деление — месяц
y — количество регистраций пользователей в месяц; x — временная шкала, 1 деление — месяц
Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел. Возможно пользователей, зарегистрированных в этот период массово забанили/перевели в read-only.
y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — час
Данный график был получен путем подсчета количества опубликованных топиков в данный час за 6 лет. Если брать меньшие рамки, возможно сдвижения графика.
y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — сутки
y — средняя итоговая оценка топиков за все время; x — временная шкала, 1 деление — сутки
Как оказалось, больше плюсов набирают топики опубликованные на выходных. Возможно это связано с тем, что на выходных их публикуют в два раза меньше.
y — количество пользователей с количеством топиков, указанных в х шкале; x — количество топиков пользователя
Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.
y — количество пользователей с количеством комментариев, указанных в х шкале; x — количество комментариев пользователя
Как видно из графика, около 15% пользователей постят 1-5 комментария и прекращают свою активность.
y — количество пользователей с количеством кармы, указанной в х шкале; x — количество кармы пользователя
20% пользователей имеют нулевую карму. Радует перевес количества пользователей в положительной части.
Как считалось
Т.к. прямого доступа к БД хабры нет, то пришлось искать обходные пути. Если вы замечали, то у каждого топика есть его номер в адресной строке, т.е. мы можем просмотреть самую первую запись на хабре habrahabr.ru/post/1. Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером(на тот момент последний топик, у которого уже истек срок голосования). Из них существуют 121 641 топика, из которых 25 949 перемещены в черновики и еще несколько сотен оказались пустыми, наподобие этого: habrahabr.ru/company/muk/blog/119653. Все топики были сохранены в файлы для дальнейшего парсинга, заняли почти 10Гб. Далее каждый топик парсился следующим образом: брался автор топика, рейтинг, дата публикации, после этого парсились комментарии, из них брался автор, рейтинг комментария и дата. У нас получилось три таблицы. После получения всех пользователей необходимо было получить для каждого значение его кармы и рейтинг. При таком подходе посчитались все, кто хотя бы раз запостил пост или оставил комментарий. Все это выкачивалось и парсилось около недели в круглосуточном режиме. Софтинка для парсинга писалась в процессе поступления данных. Частота запросов к хабру не превышало 1 запроса в секунду.
Структура БД:
Скачать дамп базы (MSSQL backup) можно здесь (132Мб):
- torrent: tinyurl.com/bqy5g7c
- narod.ru: narod.ru/disk/51378386001.7a6c403f0422f2ca2edbaba1275c3ffd/backup.sql.html
Хаброаномалии
Во время парсинга обнаружилась целая куча аномалий:
- Топики опубликованные за полгода до основания хабра: habrahabr.ru/post/1453 habrahabr.ru/post/1455
- Пользователи, зарегистрировавшиеся в далеком 1970 году: Nks PeterParker
- Пользователи, которые вроде бы и есть habrahabr.ru/post/100012/#comment_3089391, но и в тоже время их нет netrider (при попытке запросить профиль пользователя 404 ошибка)
P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.
Добавлено:
y — количество постов пользователей, зарегистрированные в указанной х шкале; x — временная шкала, 1 деление — месяц
Из этой диаграммы следует, что больше всего написали топиков пользователи зарегистрировавшееся до середины 2008 года.
было бы очень интересно видеть еще такие данные:
* средний рейтинг топиков по часам (по дням есть, но так интереснее)
* среднее количества голосов за топик по часам по времени создания топика
* среднее количество комментариев на топики по часам именно по времени создания топика
такая информация может дать представление о том когда лучше публиковать, чтобы получить максимальную активность.
а вообще интересно было бы еще видеть суммарную статистику по тэгам и хабам, но я так понимаю что парсер придется запускать заново.
Есть раздел «Лучшее за все время». было бы интересно посмотреть на «Худшее за все время». habrahabr.ru/post/145045/#comment_4873731
Самые заминусованные топики:
- Bolgenos — это не просто очередная сборка «Линукса» –268
- Лебедев лежит! -198
- Хочу спалить идею стартапа (1) -193
Самые заминусованные комментарии:
- habrahabr.ru/post/118370/#comment_3859046 -219
- habrahabr.ru/post/119754/#comment_3918136 -203 (Изображение в комментарии потеряно
- habrahabr.ru/post/63854/#comment_1774342 -192
- habrahabr.ru/post/119754/#comment_3918076 -177
Самые заминусованные пользователи (по карме):
Десятка первонахов по комментариям:
- 466 — bondbig
- 448 — jeje
- 396 — Vox
- 294 — nooze
- 293 — NaFigator
- 255 — amarao
- 237 — XaocCPS
- 204 — dohlik
- 202 — LeeMiller
- 200 — Mithgol
Замечу, что средний рейтинг первого комментария +3,59, тогда как средний рейтинг всех комментариев +0,98
Самый волнующий комментарий