Comments 67
Хорошо, только выложу изменения ночью — сейчас боюсь трогать приложение, оно и так тяжело дышит.
+3
Большая часть хабов сильно пересекается — большинство пользователей подписано на большинство хабов. Здесь значимее было бы поискать обратную корреляцию.
+3
Вроде бы ничего не отвалилось и работает:
www.habr-analytics.com/venn?hubs=net&hubs=3d-printers&hubs=aws
www.habr-analytics.com/venn?hubs=net&hubs=3d-printers&hubs=aws
0
Как вы строите диаграммы Венна, если у вас ТРИ хаба? Как получаются такие красивые и удобные окружности? Каким алгоритмом вы находите третюю точку (центр третьего круга)?
Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…
Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…
0
Если кратко, то
pypi.python.org/pypi/matplotlib-venn
Если подробнее, то что-то интересное тут видел:
www.brynmawr.edu/math/people/anmyers/PAPERS/Venn.pdf
Это очень маленький сервер пытается обслужить сразу кучу* пользователей и поэтому на ладан дышит
*больше двух
pypi.python.org/pypi/matplotlib-venn
Если подробнее, то что-то интересное тут видел:
www.brynmawr.edu/math/people/anmyers/PAPERS/Venn.pdf
Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…
Это очень маленький сервер пытается обслужить сразу кучу* пользователей и поэтому на ладан дышит
*больше двух
+2
Ох, вызовете вы проблему оракула. Ваши прогнозы начнут оказывать влияние на время публикации статей, что вызовет положительную обратную связь. Предсказания работают, пока никому неизвестны. Инструмент прекрасен, да.
+13
UFO just landed and posted this here
По моим наблюдениям пики чтения хабра — рабочее время с 10-14, примерно. Сужу по своим статьям и интенсивности вопросов к ним.
+3
Этот аргумент предполагает наличие подобного знания у всех участников сообщества, а мои статьи по анализу данных набирают в среднем 10к просмотров, и это ооочень маленький сегмент аудитории Хабра.
+1
Отличный инструмент
+1
Спасибо, аналитика и правда всегда интересна.
А можно будет реализовать аналитику по статьям — которые выложены давно?
Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.
А можно будет реализовать аналитику по статьям — которые выложены давно?
Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.
+2
Видимо надо развернуть серверную часть у себя.
+1
А можно будет реализовать аналитику по статьям — которые выложены давно?
Монитор опрашивает хабр каждые N минут, отсюда и данные для визуализации. По старым статьям, таких данных, к сожалению, нет. Хм, интересно, а нет ли у администрации?
Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.
Это исключительно техническое ограничение, бюджет инфраструктуры — 0р0к, поэтому используется бесплатная DB as a Service, у неё ограничение на размер базы в 512МБ. Из-за этого очень осторожно использую место, теоретически можно попробовать увеличить время хранения и посмотреть хватит ли на всё. Поэкспериментирую на неделе.
0
Нельзя удалять данные о просмотрах, им же цены нет. Сколько денег нужно, куда?
+1
Кстати вот и идея для монетизации: хранение истории по своим статьям, пользователям, пока оплачена подписка.
+2
Подозреваю, что там будет мелочь, которая не будет стоить заморок с реализацией подписки.
0
Думал над чем-то подобным, в духе: премиум-аккаунты с хранением всей информации и дополнительными фичами, но тогда моя персональная ответственность перед пользователями невероятно возрастет.
Сейчас, если уронить сервер на часик другой, то никакой трагедии не произойдет (у меня всё-таки вообще нет опыта веб-разработки), а если у меня будут пользователи, которые платят деньги за работу сервиса, то придется работать уже совсем на другом уровне и нести перед ними ответственность за корректную работу приложения.
Сейчас, если уронить сервер на часик другой, то никакой трагедии не произойдет (у меня всё-таки вообще нет опыта веб-разработки), а если у меня будут пользователи, которые платят деньги за работу сервиса, то придется работать уже совсем на другом уровне и нести перед ними ответственность за корректную работу приложения.
0
Если просто нужны данные по прошлым статьям (например, просмотры за неделю по индексированным статьям), то могу их периодически скидывать себе на жесткий диск — это не проблема, проблема их постоянно держать в базе данных и постоянно обновлять. Если количество статей в пуле растет — значит растет время на одно обновление, растет время запроса интерфейса, растет память в БД — в общем, мой карточный домик плохо масштабируется.
У меня есть идея получше — администрация мне уже выдаст токен API (рано или поздно) и я выпущу standalone монитор с авторизацией, каждый сможет себе столько закачать информации сколько захочет, по любому количеству статей (ну в пределах допустимых ресурсов).
Ещё опция, если у кого-нибудь есть лишний сервер с базой данных, то можно мне создать пользователя и сборщик данных через этого пользователя будет скидывать данные.
У меня есть идея получше — администрация мне уже выдаст токен API (рано или поздно) и я выпущу standalone монитор с авторизацией, каждый сможет себе столько закачать информации сколько захочет, по любому количеству статей (ну в пределах допустимых ресурсов).
Ещё опция, если у кого-нибудь есть лишний сервер с базой данных, то можно мне создать пользователя и сборщик данных через этого пользователя будет скидывать данные.
0
Круто. Не планируете увеличить время мониторинга просмотров статей скажем, до недели?
+1
Скажите, пожалуйста, а почему именно Heroku выбран в качестве хостинга? Я сколько раз ни приглядывался к нему, да удобно, куча автоматизированных вещей и прочих плюшек, но уж больно дорого выходит по сравнению с облаком того же амазона.
0
Спасибо, очень любопытно. Вы не пробовали строить график количества посетителей на Хабре и количества постов в ленте? С точки зрения общественной пользы лучше всего публиковать пост в момент когда у него меньше конкурентов за первую страницу. Можно даже простой индикатор сделать, типа светофора — стоит публиковать или лучше подождать.
0
Как узнать количество посетителей?
0
Через API (договориться с хозяевами) либо суммировать просмотры по постам за час. Для сравнительной оценки пойдет
+2
Да, по сути, не нужна информация о количестве человек, подойдет ее производная, главное чтобы они были связаны линейно.
Но логика в первом комментарии, на мой взгляд, ложна — в выходные с интересным постом нет труда попасть в лучшее, но просмотров это принесет 10к, вместо 30-50 в будни.
Но логика в первом комментарии, на мой взгляд, ложна — в выходные с интересным постом нет труда попасть в лучшее, но просмотров это принесет 10к, вместо 30-50 в будни.
+1
Когда много постов, думаю, распределение по просмотрам будет гиперболой (и этот вопрос автору поста можно проверить), т.е. после третьей страницы никто читать не будет. Так что это лотерея — повезет — прочитают много, не повезет — не прочитают совсем.
0
Наблюдаю за статьями через монитор уже пару недель и создается впечатление, что реально читают только «лучшее за сутки» и более-менее читают «новое», для большинства статей характерна вот такая ступенька после 24х часов (статья Открытый Терминальный Клиент ОТК-110 — просто новости)

и дальше почти горизонтальная линия (кроме отдельных долго-играющих статей)

и дальше почти горизонтальная линия (кроме отдельных долго-играющих статей)
0
Мои статьи понемногу читают. Даже продолжают комментировать и спрашивать.
0
Добро пожаловать в категорию долго-играющих статей, такие статьи есть, но их по предварительным данным и моим субъективным ощущениям (за шесть с небольшим лет) немного.
У меня такая статья только одна и она собственно и сподвигла меня сделать систему анализа статей. До сих пор встречаю ссылки на неё в сети и радуюсь.
У меня такая статья только одна и она собственно и сподвигла меня сделать систему анализа статей. До сих пор встречаю ссылки на неё в сети и радуюсь.
0
Быстро протухают новостные статьи. Кроме особо острых. А дольше всего живут инструкции и что-то полезное. Проверьте корреляцию между добавлением в избранное и сроком жизни статьи.
0
Когда-то уже писал про инструкции на Хабре, хотя и немного в другом ключе
Портрет хабра-tutorial
habrahabr.ru/company/dmlabs/blog/218607/
Для корреляции между добавлением в избранное и сроком жизни нужно действительно проводить longitudinal study и собирать качественный датасет.
Портрет хабра-tutorial
habrahabr.ru/company/dmlabs/blog/218607/
Для корреляции между добавлением в избранное и сроком жизни нужно действительно проводить longitudinal study и собирать качественный датасет.
0
Не дают API, сказали «как только, так сразу» (в общих чертах).
0
Мой рейтинг как-то странно выглядит.

Интервалы какие-то неравномерные. Где 2011-й год? И вообще он у меня ниже 150 уже давно не был. Или это рейтинг минус половина кармы? Или я чего-то не понимаю?

Интервалы какие-то неравномерные. Где 2011-й год? И вообще он у меня ниже 150 уже давно не был. Или это рейтинг минус половина кармы? Или я чего-то не понимаю?
0
А прикрутите select2 на выпадающие списки, а то очень в них искать не удобно. Спасибо, как раз слежу за своей статьей.
Хотя opensource, может сам поробую.
Хотя opensource, может сам поробую.
0
1) Рейтинг пользователя пока неюзабелен, надо делать что-то типа хабрапульса — карма, рейтинг и наложенные на них события:

Но это не сильно важно, никакой особой ценности, кроме как посмотреть на свой график, оно не несет.
Кстати, у Urvin есть данные о статистике постов тех людей, кто зарегистрировался на пульсе:

Только с одним минусом, сводящим статистику на нет — количество просмотров не нормализуется, вкупе с авто-масшатабом, это приводит к тому, что плюсы/минусы, избранные и комментарии просто не видны на фоне 50к просмотров. Я, правда, просил его выгрузить данные по мне, но что-то не срослось. Может, надо получше попросить :)
Вот рейтинги постов — это очень важная информация.
2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)
3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.

Но это не сильно важно, никакой особой ценности, кроме как посмотреть на свой график, оно не несет.
Кстати, у Urvin есть данные о статистике постов тех людей, кто зарегистрировался на пульсе:

Только с одним минусом, сводящим статистику на нет — количество просмотров не нормализуется, вкупе с авто-масшатабом, это приводит к тому, что плюсы/минусы, избранные и комментарии просто не видны на фоне 50к просмотров. Я, правда, просил его выгрузить данные по мне, но что-то не срослось. Может, надо получше попросить :)
Вот рейтинги постов — это очень важная информация.
2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)
3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.
0
4) Еще бы было интересно сделать обертку для ссылок, чтобы видеть в той же панели количество кликов по отдельным ссылкам. Т.е. ссылка вида http://habr-analytics.com/7583?link=http://test.com/ которая бы при клике записывала в бд время клика и перенаправляла бы пользователя куда надо. И смотреть количество кликов там же, в мониторе постов, с наложением на остальные метрики.
5)наложить на график монитора поста вертикальные метки — вход в «захабренные», в «отхабренные», вход в «лучшие за сутки», «первое место в лучшем за сутки», «выход из лучшего за сутки», «окончания голосования за статью»
5)наложить на график монитора поста вертикальные метки — вход в «захабренные», в «отхабренные», вход в «лучшие за сутки», «первое место в лучшем за сутки», «выход из лучшего за сутки», «окончания голосования за статью»
0
4) Звучит интересно, это нужно для сбора какой-то дополнительной информации аля google analytics?
5) Над этим и сам думал, но решил подождать отклика на базовую версию — вдруг это вообще было никому не нужно.
5) Над этим и сам думал, но решил подождать отклика на базовую версию — вдруг это вообще было никому не нужно.
0
1) Вот рейтинги постов — это очень важная информация.
Так они же и реализованы по оси Х — даты публикации постов

или я не правильно понял эту часть комментария?
2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)
В принципе выглядит реализуемо, единственное, мне тут предлагают вообще визуализацию переделать, поэтому я пока подожду с добавлением сложной логики.
3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.
Вот тут я чуть-чуть поленился и перенес часть кода из standalone приложений, и на хабы компаний уже не хватило сил. Эту часть надо бы переписать под Heroku и добавить хабы компаний.
0
Жаль, не встроено в хабр :)
+3
Изменение показателей статьи показано в часах от начала. На самом деле намного логичнее — в абсолютных часах. Т.е. по реальному времени. Посещаемость статьи связана не с дельтой от начала публикации, а со временем дня. Будет синусоида с максимумами на 1-2 часа дня и 8-9 вечера.
0
Еще одной полезной метрикой было бы близость к получению бейджей и что еще надо сделать чтобы получить очередной бейдж =)
0
А нельзя ли отсортировать хабы по алфавиту. Невозможно найти что либо.
0
Хотел посмотреть всякие няшные графики, но у видел лишь:
Application Offline for Maintenance
0
Only those users with full accounts are able to leave comments. Log in, please.
Пульс Хабра