Comments 46
Повторение — мать учения.
Хотя ваша статистика гораздо подробнее и нагляднее, ну и свежее.
Хотя ваша статистика гораздо подробнее и нагляднее, ну и свежее.
+3
UFO just landed and posted this here
А у меня вызывает любопытство (а не то и изумление) масштабный провал (и по числу просмотров, и по числу добавлений в избранное) в первую десятидневку месяца.
Никак не могу вообразить себе объяснение этого.
Кабы в конце месяца наблюдалось этакое, то можно было бы вообразить, что у всех месячный план работы близится к прискорбному неисполнению, так что не до Хабрахабра многим читателям, то есть реальная жизнь не отпускает их.
А тут в начале месяца.
Никак не могу вообразить себе объяснение этого.
Кабы в конце месяца наблюдалось этакое, то можно было бы вообразить, что у всех месячный план работы близится к прискорбному неисполнению, так что не до Хабрахабра многим читателям, то есть реальная жизнь не отпускает их.
А тут в начале месяца.
+5
Это довольно странный эффект, равно как и артефакты, связанные с минутами, на других графиках. Предположу, что эффект вызван запуском хрона на серверах Хабра, из-за чего веб-сервер притормаживает чуть больше обычного и сдвигает обработку запросов во времени. Было бы интересно взглянуть на crontab'ы.
+1
Не увидел статистику по дням недели. Есть ощущение, что тут будет куда больше видимых корреляций.
+8
То есть, теперь качество и интересность поста уже не важно, а главное — «астропрогноз» на хабр?
+1
Не понимаю я этих заигрываний с читателями путём зачеркнутого шрифта.
Что значит:
«выходом, мне пришлось проделать кое-какую работу»
?
Что значит:
«выходом, мне пришлось проделать кое-какую работу»
?
+2
Суть эксперимента изменилась. Эту статью хотел опубликовать после публикации статьи о нашей разработке, но обсудив с ребятами, пришли к выводу, что сейчас это опубликуем, а потом уже и основную статью.
0
Какая-то бага во входных данных или в обработке или в Хабре. Не может так необъяснимо распределяться по дням месяца. Даже 52 минуты как-то объяснить теоритически можно заходом робота или модера по крону, но 10 число не пояснить так.
+3
Возможно, поэтому-то я данные и добавил в публичный доступ.
0
Ну как же, средний день аванса, день оплаты за интернет… почему бы нет?
0
Бага в обработке, я обсчитал в экселе — почти гладкая прямая.
+1
В общем рецепт успеха — публиковать нужно 11 декабря в 13:52. И от меня — лучше всего первой картинкой должен быть котик и после хабраката обязательно сиськи.
И да, ни слова о карме, Apple и Android, ни в коем случае не Андройд.
И да, ни слова о карме, Apple и Android, ни в коем случае не Андройд.
+8
А почему вы не воспользовались своими же выводами?
До декабря еще далеко, но до 11 числа можно же подождать. Или, если хочется поделиться результатами именно сегодня, выбрать «правильный» час для публикации.
До декабря еще далеко, но до 11 числа можно же подождать. Или, если хочется поделиться результатами именно сегодня, выбрать «правильный» час для публикации.
0
А кто сказал, что не воспользуемся?) Воспользуемся, но предварительно хотелось получить какой-то фидбек и указания на «ляпы».
К тому же ранняя публикация никак не изменит статистику кардинально, так что бояться нечего.
+ ко всему хотелось услышать и другие мнения по поводу подобных распределений, что комментариев в декабре, что провал в первые 10 дней.
К тому же ранняя публикация никак не изменит статистику кардинально, так что бояться нечего.
+ ко всему хотелось услышать и другие мнения по поводу подобных распределений, что комментариев в декабре, что провал в первые 10 дней.
0
Проверьте, пожалуйста, свой код. Эксель считает, что нет никаких видимых аномалий.
0
Да, вижу.
Я так понимаю вы по суммарным значениям строите? Пересмотрел свой график — суммарное нормально, а вот по среднему — провал.

Я так понимаю вы по суммарным значениям строите? Пересмотрел свой график — суммарное нормально, а вот по среднему — провал.

0
Построил график «средние избранные по дням», всё равно прямая.


0
Кстати, поправочка: тот график, который у меня выше, он только за 2013 год.
А вот по всем годам этот:

Разница конечно видна, код пересмотрел, выглядит нормально.
Вечером попробую пересчитать, может действительно, где мелкий косяк есть.
Спасибо!
А вот по всем годам этот:

Разница конечно видна, код пересмотрел, выглядит нормально.
Вечером попробую пересчитать, может действительно, где мелкий косяк есть.
Спасибо!
0
Ну, если взять срез по 2013, то всё равно будет гладкий график без аномалий, со значениями в районе 90-120.
Попробуйте выгрузить из своего файла в какой-нибудь sql, будет сподручнее, чем на ObjC строки жевать. Ну или должны же быть на маке какие-нибудь бизнес-приложения для кручения кубов, поищите какой-нибудь спец. инструмент.
Попробуйте выгрузить из своего файла в какой-нибудь sql, будет сподручнее, чем на ObjC строки жевать. Ну или должны же быть на маке какие-нибудь бизнес-приложения для кручения кубов, поищите какой-нибудь спец. инструмент.
+1
У меня ощущение, что статистики слишком много. Занимаясь датамайнингом, вы не забыли, о чём изначально писать-то собирались?
0
Вообще все графики про избранное показывают температуру по больнице. В избранное добавляется интересное и полезное, а не созданное в определённый час года. И если голосовать можно только некоторое время после публикации поста или комента, то в избранное можно добавлять любой пост или комент, хоть прошлогодний.
0
Я думаю, вам нужно языковой (не знаю как точно выразиться, семантический что-ли) анализ провести:
* в каком хабе «лучше» распределение количества просмотров, комментариев, отданных голосов и добавление в избранное
* аналогично для меток (ключевых слов)
* аналогично для содержимого: по объёму текста в символах, словах и параграфах, по количеству и размерам иллюстраций
* в каком хабе «лучше» распределение количества просмотров, комментариев, отданных голосов и добавление в избранное
* аналогично для меток (ключевых слов)
* аналогично для содержимого: по объёму текста в символах, словах и параграфах, по количеству и размерам иллюстраций
+1
Мда, похоже Хабр прошел пик своего развития (смотрю на график Суммарное Кол-во Комментариев по Годам). Идет процесс увядания…
+2
Вы про это?


0
И никто не заметил что 2013-й год с его самым продуктивным(судя по статистике) декабрём еще не закончился однако, поэтому статистика в «хвосте» еще недостаточно полная. И пополнится она месяца через 3 после декабря…
Сейчас по этой статистике можно судить только по 2012-й год и разница между двумя соседними точками это еще не тенденция.
Сейчас по этой статистике можно судить только по 2012-й год и разница между двумя соседними точками это еще не тенденция.
0
Кто прикинет, что же изображено на этих графиках?
Очевидно, это сиднейский оперный театр в исполнении современного художника

+10
Эх, публиковать всё надо было в 2012.
+1
Статистика выложена ради того, чтобы быть выложенной. Гораздо информативнее выглядели бы следующие зависимости:
* По дням недели
* Публикации/просмотры в выходные праздничные дни по сравнению с будними
* Сравнения по часам будних и выходных дней
* Соотношения плюсов и минусов по времени публикации, отдельно по выходным дням и праздничным
* Соотношение комментариев к новым постам по часам, отдельно по выходным дням и праздничным
Отдельная крутизна:
* Зависимость от погоды в самых популярных регионах
* По дням недели
* Публикации/просмотры в выходные праздничные дни по сравнению с будними
* Сравнения по часам будних и выходных дней
* Соотношения плюсов и минусов по времени публикации, отдельно по выходным дням и праздничным
* Соотношение комментариев к новым постам по часам, отдельно по выходным дням и праздничным
Отдельная крутизна:
* Зависимость от погоды в самых популярных регионах
+7
Мне вот всегда казалось, что определяющими факторами является время суток (оно у Вас есть) и день недели (как правильно было замечено выше его очень не хватает).
Не пытались ли оценить размер пишущей и читающей аудитории по регионам СНГ (всем миром думаю можно пренебречь)? Насколько график по времени дня будет не корректным из-за этого?
Что думаете насчет разделения статей на категории, выброса из списка исследуемых постов горячих новостей?
Не пытались ли оценить размер пишущей и читающей аудитории по регионам СНГ (всем миром думаю можно пренебречь)? Насколько график по времени дня будет не корректным из-за этого?
Что думаете насчет разделения статей на категории, выброса из списка исследуемых постов горячих новостей?
0
Статистики по дням недели так и не увидел, выкладываю свои расчеты.
Неожиданно, в лидеры по средним показателям вышло воскресенье: больше всего просмотров, больше всего комментариев, больше всего добавлений в избранное.
С другой стороны, статьи чаще всего публикуются именно в понедельник, но при этом реже всего комментируются.
P.S. Не совсем понимаю, зачем автор писал для каждого показателя свою утилиту. На мой взгляд, анализировать данные через SQL гораздо проще. Грузил HabrahabrDataParsedDate.txt.
Данные за 2013 год
DayOfWeek PostCount ViewCount StarCount CommentCount AvgPostCountByDay AvgViewCount AvgStarCount AvgCommentCount --------- --------- --------- --------- ------------ ----------------- ------------- ------------ --------------- Sunday 606 17188164 77173 34109 22 28363.306930 127.348184 56.285478 Monday 1524 30536458 164363 57147 58 20037.045931 107.849737 37.498031 Tuesday 1509 31084019 153654 62523 55 20599.084824 101.825049 41.433399 Wednesday 1517 31414848 144898 67220 54 20708.535266 95.516150 44.311140 Thursday 1486 31617186 139553 61563 53 21276.706594 93.911843 41.428667 Friday 1295 25583256 113480 57863 49 19755.410038 87.629343 44.681853 Saturday 519 12515415 56660 25991 19 24114.479768 109.171483 50.078998
Неожиданно, в лидеры по средним показателям вышло воскресенье: больше всего просмотров, больше всего комментариев, больше всего добавлений в избранное.
С другой стороны, статьи чаще всего публикуются именно в понедельник, но при этом реже всего комментируются.
P.S. Не совсем понимаю, зачем автор писал для каждого показателя свою утилиту. На мой взгляд, анализировать данные через SQL гораздо проще. Грузил HabrahabrDataParsedDate.txt.
Запрос для MS SQL
-- Создание временной таблицы
create table tmp_H
(
ID int not null, -- ID поста
DT varchar(max) not null, -- Время публикации
VC varchar(max) not null, -- Количество просмотров
ST int not null, -- Количество добавлений в избранное
CC int not null -- Количество комментариев
)
-- Загружаем данные во временную таблицу
BULK INSERT tmp_H FROM 'c:\csv\HabrahabrDataParsedDate.txt' WITH (FIELDTERMINATOR = ',', FIRSTROW = 1,ROWTERMINATOR = '0x0a', CODEPAGE='ACP')
-- Удаляем записи с неправильным временем (около 3,5% записей)
delete from tmp_H where len(dt) > 16
-- Ставим 0 как количество просмотров для тех записей, для которых такого показателя нет
update tmp_H set VC = 0 where VC = '(null)'
-- Собственно выборка. 2013 год, записи с указанием количества просмотров (впрочем все записи за 2013 год имеют данный показатель)
with tmp (ID, DT, VC, ST, CC)
as (select ID, CONVERT(datetime, SUBSTRING(DT, 7, LEN(DT) - 6), 104) as DT, convert(int, VC) AS VC, ST, CC from tmp_H)
select
datename(dw,DT) as [DayOfWeek],
count(*) as [PostCount],
sum(VC) as [ViewCount],
sum(ST) as [StarCount],
sum(CC) as [CommentCount],
count(*) / count(distinct DT) as [AvgPostCountByDay],
sum(VC * 1.0) / count(*) as [AvgViewCount],
sum(ST * 1.0) / count(*) as [AvgStarCount],
sum(CC * 1.0) / count(*) as [AvgCommentCount]
from tmp
where 1=1
and DT between '01-01-2013' and '01-01-2014' -- 2013 год
and VC != 0 -- Есть просмотры
group by datepart(dw,DT),datename(dw,DT)
order by datepart(dw,DT)
0
Only those users with full accounts are able to leave comments. Log in, please.
8+ в 1: как я хотел привлечь внимание