Pull to refresh

Comments 46

Спасибо за ссылочку, глянем обязательно на те результаты.
UFO landed and left these words here
А у меня вызывает любопытство (а не то и изумление) масштабный провал (и по числу просмотров, и по числу добавлений в избранное) в первую десятидневку месяца.

Никак не могу вообразить себе объяснение этого.

Кабы в конце месяца наблюдалось этакое, то можно было бы вообразить, что у всех месячный план работы близится к прискорбному неисполнению, так что не до Хабрахабра многим читателям, то есть реальная жизнь не отпускает их.

А тут в начале месяца.
UFO landed and left these words here
Видимо, не успевают оплатить интернет и как только аванс выплачивают сразу платят за интернет.
Наверняка ошибка в скрипте, что-нибудь из разряда неверного преобразования десятичных чисел с ведущим нулем: «09» <=> «9»
Это довольно странный эффект, равно как и артефакты, связанные с минутами, на других графиках. Предположу, что эффект вызван запуском хрона на серверах Хабра, из-за чего веб-сервер притормаживает чуть больше обычного и сдвигает обработку запросов во времени. Было бы интересно взглянуть на crontab'ы.
Не увидел статистику по дням недели. Есть ощущение, что тут будет куда больше видимых корреляций.
Опа, таки действительно упустил их добавить в пост.
Вечером исправим.
То есть, теперь качество и интересность поста уже не важно, а главное — «астропрогноз» на хабр?
Не понимаю я этих заигрываний с читателями путём зачеркнутого шрифта.
Что значит:
«выходом, мне пришлось проделать кое-какую работу»
?
Суть эксперимента изменилась. Эту статью хотел опубликовать после публикации статьи о нашей разработке, но обсудив с ребятами, пришли к выводу, что сейчас это опубликуем, а потом уже и основную статью.
Я к тому, что если прочитать только незачеркнутый текст — получается несвязанная чушь.
Какая-то бага во входных данных или в обработке или в Хабре. Не может так необъяснимо распределяться по дням месяца. Даже 52 минуты как-то объяснить теоритически можно заходом робота или модера по крону, но 10 число не пояснить так.
Возможно, поэтому-то я данные и добавил в публичный доступ.
Ну как же, средний день аванса, день оплаты за интернет… почему бы нет?
В общем рецепт успеха — публиковать нужно 11 декабря в 13:52. И от меня — лучше всего первой картинкой должен быть котик и после хабраката обязательно сиськи.
И да, ни слова о карме, Apple и Android, ни в коем случае не Андройд.
А почему вы не воспользовались своими же выводами?
До декабря еще далеко, но до 11 числа можно же подождать. Или, если хочется поделиться результатами именно сегодня, выбрать «правильный» час для публикации.
А кто сказал, что не воспользуемся?) Воспользуемся, но предварительно хотелось получить какой-то фидбек и указания на «ляпы».
К тому же ранняя публикация никак не изменит статистику кардинально, так что бояться нечего.
+ ко всему хотелось услышать и другие мнения по поводу подобных распределений, что комментариев в декабре, что провал в первые 10 дней.
Проверьте, пожалуйста, свой код. Эксель считает, что нет никаких видимых аномалий.
Да, вижу.
Я так понимаю вы по суммарным значениям строите? Пересмотрел свой график — суммарное нормально, а вот по среднему — провал.
image
Кстати, поправочка: тот график, который у меня выше, он только за 2013 год.
А вот по всем годам этот:
image

Разница конечно видна, код пересмотрел, выглядит нормально.
Вечером попробую пересчитать, может действительно, где мелкий косяк есть.

Спасибо!
Ну, если взять срез по 2013, то всё равно будет гладкий график без аномалий, со значениями в районе 90-120.
Попробуйте выгрузить из своего файла в какой-нибудь sql, будет сподручнее, чем на ObjC строки жевать. Ну или должны же быть на маке какие-нибудь бизнес-приложения для кручения кубов, поищите какой-нибудь спец. инструмент.
У меня ощущение, что статистики слишком много. Занимаясь датамайнингом, вы не забыли, о чём изначально писать-то собирались?
Это не Data Mining! Скорее кубы, не более
Вообще все графики про избранное показывают температуру по больнице. В избранное добавляется интересное и полезное, а не созданное в определённый час года. И если голосовать можно только некоторое время после публикации поста или комента, то в избранное можно добавлять любой пост или комент, хоть прошлогодний.
В избранное добавляется интересное и полезное

А никто и не спорит с этим.
Я другим вопросом задавался: есть ли зависимость между временем публикации и кол-во добавлений в избранное (просмотров, комментариев). Что получилось, судить вам.
Я думаю, вам нужно языковой (не знаю как точно выразиться, семантический что-ли) анализ провести:
* в каком хабе «лучше» распределение количества просмотров, комментариев, отданных голосов и добавление в избранное
* аналогично для меток (ключевых слов)
* аналогично для содержимого: по объёму текста в символах, словах и параграфах, по количеству и размерам иллюстраций
* в каком хабе «лучше» распределение количества просмотров, комментариев, отданных голосов и добавление в избранное

Это вот планируется, осталось время выделить.

По поводу меток, мне кажется, что они не актуальны и в них часто много лишнего есть.
Мда, похоже Хабр прошел пик своего развития (смотрю на график Суммарное Кол-во Комментариев по Годам). Идет процесс увядания…
График, кстати, не нравится.

1. Если график по годам, то что это за плавная линия такая?
2. Текущий год еще не закончился, а 2006, возможно, начался для хабра не с января, так что «горб» не дает правильной картины.
И никто не заметил что 2013-й год с его самым продуктивным(судя по статистике) декабрём еще не закончился однако, поэтому статистика в «хвосте» еще недостаточно полная. И пополнится она месяца через 3 после декабря…
Сейчас по этой статистике можно судить только по 2012-й год и разница между двумя соседними точками это еще не тенденция.
Кто прикинет, что же изображено на этих графиках?
image


Очевидно, это сиднейский оперный театр в исполнении современного художника
image

4 500 x 3 024, 2.6 MB — именно такой картинки не хватало этому посту.
Надо было опубликовать пост в 13:52 11-го декабря 2012 года
Статистика выложена ради того, чтобы быть выложенной. Гораздо информативнее выглядели бы следующие зависимости:
* По дням недели
* Публикации/просмотры в выходные праздничные дни по сравнению с будними
* Сравнения по часам будних и выходных дней
* Соотношения плюсов и минусов по времени публикации, отдельно по выходным дням и праздничным
* Соотношение комментариев к новым постам по часам, отдельно по выходным дням и праздничным

Отдельная крутизна:
* Зависимость от погоды в самых популярных регионах
Мне вот всегда казалось, что определяющими факторами является время суток (оно у Вас есть) и день недели (как правильно было замечено выше его очень не хватает).
Не пытались ли оценить размер пишущей и читающей аудитории по регионам СНГ (всем миром думаю можно пренебречь)? Насколько график по времени дня будет не корректным из-за этого?
Что думаете насчет разделения статей на категории, выброса из списка исследуемых постов горячих новостей?
Статистики по дням недели так и не увидел, выкладываю свои расчеты.
Данные за 2013 год
DayOfWeek PostCount ViewCount StarCount CommentCount AvgPostCountByDay AvgViewCount  AvgStarCount AvgCommentCount
--------- --------- --------- --------- ------------ ----------------- ------------- ------------ ---------------
Sunday    606       17188164  77173     34109        22                28363.306930  127.348184   56.285478
Monday    1524      30536458  164363    57147        58                20037.045931  107.849737   37.498031
Tuesday   1509      31084019  153654    62523        55                20599.084824  101.825049   41.433399
Wednesday 1517      31414848  144898    67220        54                20708.535266  95.516150    44.311140
Thursday  1486      31617186  139553    61563        53                21276.706594  93.911843    41.428667
Friday    1295      25583256  113480    57863        49                19755.410038  87.629343    44.681853
Saturday  519       12515415  56660     25991        19                24114.479768  109.171483   50.078998

Неожиданно, в лидеры по средним показателям вышло воскресенье: больше всего просмотров, больше всего комментариев, больше всего добавлений в избранное.
С другой стороны, статьи чаще всего публикуются именно в понедельник, но при этом реже всего комментируются.

P.S. Не совсем понимаю, зачем автор писал для каждого показателя свою утилиту. На мой взгляд, анализировать данные через SQL гораздо проще. Грузил HabrahabrDataParsedDate.txt.
Запрос для MS SQL
-- Создание временной таблицы
create table tmp_H
(
ID int not null,           -- ID поста
DT varchar(max) not null,  -- Время публикации
VC varchar(max) not null,  -- Количество просмотров
ST int not null,           -- Количество добавлений в избранное
CC int not null            -- Количество комментариев
)

-- Загружаем данные во временную таблицу
BULK INSERT tmp_H FROM 'c:\csv\HabrahabrDataParsedDate.txt' WITH (FIELDTERMINATOR = ',', FIRSTROW = 1,ROWTERMINATOR = '0x0a', CODEPAGE='ACP')

-- Удаляем записи с неправильным временем (около 3,5% записей)
delete from tmp_H where len(dt) > 16

-- Ставим 0 как количество просмотров для тех записей, для которых такого показателя нет 
update tmp_H set VC = 0 where VC = '(null)'

-- Собственно выборка. 2013 год, записи с указанием количества просмотров (впрочем все записи за 2013 год имеют данный показатель) 
with tmp (ID, DT, VC, ST, CC)
as (select ID, CONVERT(datetime, SUBSTRING(DT, 7, LEN(DT) - 6), 104) as DT, convert(int, VC) AS VC, ST, CC from tmp_H)  
select 
	datename(dw,DT) as [DayOfWeek],
	count(*) as [PostCount],
	sum(VC) as [ViewCount],
	sum(ST) as [StarCount],
	sum(CC) as [CommentCount],
	count(*) / count(distinct DT) as [AvgPostCountByDay],
	sum(VC * 1.0) / count(*) as [AvgViewCount],
	sum(ST * 1.0) / count(*) as [AvgStarCount],
	sum(CC * 1.0) / count(*) as [AvgCommentCount]
from tmp
where 1=1
and DT between '01-01-2013' and '01-01-2014'  -- 2013 год
and VC != 0                                   -- Есть просмотры
group by datepart(dw,DT),datename(dw,DT)
order by datepart(dw,DT)
Only those users with full accounts are able to leave comments. Log in, please.