Comments 67
Хорошо, только выложу изменения ночью — сейчас боюсь трогать приложение, оно и так тяжело дышит.
Большая часть хабов сильно пересекается — большинство пользователей подписано на большинство хабов. Здесь значимее было бы поискать обратную корреляцию.
Вроде бы ничего не отвалилось и работает:
www.habr-analytics.com/venn?hubs=net&hubs=3d-printers&hubs=aws
www.habr-analytics.com/venn?hubs=net&hubs=3d-printers&hubs=aws
Как вы строите диаграммы Венна, если у вас ТРИ хаба? Как получаются такие красивые и удобные окружности? Каким алгоритмом вы находите третюю точку (центр третьего круга)?
Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…
Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…
Если кратко, то
pypi.python.org/pypi/matplotlib-venn
Если подробнее, то что-то интересное тут видел:
www.brynmawr.edu/math/people/anmyers/PAPERS/Venn.pdf
Это очень маленький сервер пытается обслужить сразу кучу* пользователей и поэтому на ладан дышит
*больше двух
pypi.python.org/pypi/matplotlib-venn
Если подробнее, то что-то интересное тут видел:
www.brynmawr.edu/math/people/anmyers/PAPERS/Venn.pdf
Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…
Это очень маленький сервер пытается обслужить сразу кучу* пользователей и поэтому на ладан дышит
*больше двух
Ох, вызовете вы проблему оракула. Ваши прогнозы начнут оказывать влияние на время публикации статей, что вызовет положительную обратную связь. Предсказания работают, пока никому неизвестны. Инструмент прекрасен, да.
По моим наблюдениям пики чтения хабра — рабочее время с 10-14, примерно. Сужу по своим статьям и интенсивности вопросов к ним.
Этот аргумент предполагает наличие подобного знания у всех участников сообщества, а мои статьи по анализу данных набирают в среднем 10к просмотров, и это ооочень маленький сегмент аудитории Хабра.
Отличный инструмент
Спасибо, аналитика и правда всегда интересна.
А можно будет реализовать аналитику по статьям — которые выложены давно?
Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.
А можно будет реализовать аналитику по статьям — которые выложены давно?
Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.
Видимо надо развернуть серверную часть у себя.
А можно будет реализовать аналитику по статьям — которые выложены давно?
Монитор опрашивает хабр каждые N минут, отсюда и данные для визуализации. По старым статьям, таких данных, к сожалению, нет. Хм, интересно, а нет ли у администрации?
Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.
Это исключительно техническое ограничение, бюджет инфраструктуры — 0р0к, поэтому используется бесплатная DB as a Service, у неё ограничение на размер базы в 512МБ. Из-за этого очень осторожно использую место, теоретически можно попробовать увеличить время хранения и посмотреть хватит ли на всё. Поэкспериментирую на неделе.
Нельзя удалять данные о просмотрах, им же цены нет. Сколько денег нужно, куда?
Кстати вот и идея для монетизации: хранение истории по своим статьям, пользователям, пока оплачена подписка.
Подозреваю, что там будет мелочь, которая не будет стоить заморок с реализацией подписки.
Думал над чем-то подобным, в духе: премиум-аккаунты с хранением всей информации и дополнительными фичами, но тогда моя персональная ответственность перед пользователями невероятно возрастет.
Сейчас, если уронить сервер на часик другой, то никакой трагедии не произойдет (у меня всё-таки вообще нет опыта веб-разработки), а если у меня будут пользователи, которые платят деньги за работу сервиса, то придется работать уже совсем на другом уровне и нести перед ними ответственность за корректную работу приложения.
Сейчас, если уронить сервер на часик другой, то никакой трагедии не произойдет (у меня всё-таки вообще нет опыта веб-разработки), а если у меня будут пользователи, которые платят деньги за работу сервиса, то придется работать уже совсем на другом уровне и нести перед ними ответственность за корректную работу приложения.
Если просто нужны данные по прошлым статьям (например, просмотры за неделю по индексированным статьям), то могу их периодически скидывать себе на жесткий диск — это не проблема, проблема их постоянно держать в базе данных и постоянно обновлять. Если количество статей в пуле растет — значит растет время на одно обновление, растет время запроса интерфейса, растет память в БД — в общем, мой карточный домик плохо масштабируется.
У меня есть идея получше — администрация мне уже выдаст токен API (рано или поздно) и я выпущу standalone монитор с авторизацией, каждый сможет себе столько закачать информации сколько захочет, по любому количеству статей (ну в пределах допустимых ресурсов).
Ещё опция, если у кого-нибудь есть лишний сервер с базой данных, то можно мне создать пользователя и сборщик данных через этого пользователя будет скидывать данные.
У меня есть идея получше — администрация мне уже выдаст токен API (рано или поздно) и я выпущу standalone монитор с авторизацией, каждый сможет себе столько закачать информации сколько захочет, по любому количеству статей (ну в пределах допустимых ресурсов).
Ещё опция, если у кого-нибудь есть лишний сервер с базой данных, то можно мне создать пользователя и сборщик данных через этого пользователя будет скидывать данные.
Круто. Не планируете увеличить время мониторинга просмотров статей скажем, до недели?
Скажите, пожалуйста, а почему именно Heroku выбран в качестве хостинга? Я сколько раз ни приглядывался к нему, да удобно, куча автоматизированных вещей и прочих плюшек, но уж больно дорого выходит по сравнению с облаком того же амазона.
Спасибо, очень любопытно. Вы не пробовали строить график количества посетителей на Хабре и количества постов в ленте? С точки зрения общественной пользы лучше всего публиковать пост в момент когда у него меньше конкурентов за первую страницу. Можно даже простой индикатор сделать, типа светофора — стоит публиковать или лучше подождать.
Как узнать количество посетителей?
Через API (договориться с хозяевами) либо суммировать просмотры по постам за час. Для сравнительной оценки пойдет
Да, по сути, не нужна информация о количестве человек, подойдет ее производная, главное чтобы они были связаны линейно.
Но логика в первом комментарии, на мой взгляд, ложна — в выходные с интересным постом нет труда попасть в лучшее, но просмотров это принесет 10к, вместо 30-50 в будни.
Но логика в первом комментарии, на мой взгляд, ложна — в выходные с интересным постом нет труда попасть в лучшее, но просмотров это принесет 10к, вместо 30-50 в будни.
Когда много постов, думаю, распределение по просмотрам будет гиперболой (и этот вопрос автору поста можно проверить), т.е. после третьей страницы никто читать не будет. Так что это лотерея — повезет — прочитают много, не повезет — не прочитают совсем.
Наблюдаю за статьями через монитор уже пару недель и создается впечатление, что реально читают только «лучшее за сутки» и более-менее читают «новое», для большинства статей характерна вот такая ступенька после 24х часов (статья Открытый Терминальный Клиент ОТК-110 — просто новости)

и дальше почти горизонтальная линия (кроме отдельных долго-играющих статей)

и дальше почти горизонтальная линия (кроме отдельных долго-играющих статей)
Мои статьи понемногу читают. Даже продолжают комментировать и спрашивать.
Добро пожаловать в категорию долго-играющих статей, такие статьи есть, но их по предварительным данным и моим субъективным ощущениям (за шесть с небольшим лет) немного.
У меня такая статья только одна и она собственно и сподвигла меня сделать систему анализа статей. До сих пор встречаю ссылки на неё в сети и радуюсь.
У меня такая статья только одна и она собственно и сподвигла меня сделать систему анализа статей. До сих пор встречаю ссылки на неё в сети и радуюсь.
Быстро протухают новостные статьи. Кроме особо острых. А дольше всего живут инструкции и что-то полезное. Проверьте корреляцию между добавлением в избранное и сроком жизни статьи.
Когда-то уже писал про инструкции на Хабре, хотя и немного в другом ключе
Портрет хабра-tutorial
habrahabr.ru/company/dmlabs/blog/218607/
Для корреляции между добавлением в избранное и сроком жизни нужно действительно проводить longitudinal study и собирать качественный датасет.
Портрет хабра-tutorial
habrahabr.ru/company/dmlabs/blog/218607/
Для корреляции между добавлением в избранное и сроком жизни нужно действительно проводить longitudinal study и собирать качественный датасет.
Не дают API, сказали «как только, так сразу» (в общих чертах).
Мой рейтинг как-то странно выглядит.

Интервалы какие-то неравномерные. Где 2011-й год? И вообще он у меня ниже 150 уже давно не был. Или это рейтинг минус половина кармы? Или я чего-то не понимаю?

Интервалы какие-то неравномерные. Где 2011-й год? И вообще он у меня ниже 150 уже давно не был. Или это рейтинг минус половина кармы? Или я чего-то не понимаю?
А прикрутите select2 на выпадающие списки, а то очень в них искать не удобно. Спасибо, как раз слежу за своей статьей.
Хотя opensource, может сам поробую.
Хотя opensource, может сам поробую.
1) Рейтинг пользователя пока неюзабелен, надо делать что-то типа хабрапульса — карма, рейтинг и наложенные на них события:

Но это не сильно важно, никакой особой ценности, кроме как посмотреть на свой график, оно не несет.
Кстати, у Urvin есть данные о статистике постов тех людей, кто зарегистрировался на пульсе:

Только с одним минусом, сводящим статистику на нет — количество просмотров не нормализуется, вкупе с авто-масшатабом, это приводит к тому, что плюсы/минусы, избранные и комментарии просто не видны на фоне 50к просмотров. Я, правда, просил его выгрузить данные по мне, но что-то не срослось. Может, надо получше попросить :)
Вот рейтинги постов — это очень важная информация.
2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)
3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.

Но это не сильно важно, никакой особой ценности, кроме как посмотреть на свой график, оно не несет.
Кстати, у Urvin есть данные о статистике постов тех людей, кто зарегистрировался на пульсе:

Только с одним минусом, сводящим статистику на нет — количество просмотров не нормализуется, вкупе с авто-масшатабом, это приводит к тому, что плюсы/минусы, избранные и комментарии просто не видны на фоне 50к просмотров. Я, правда, просил его выгрузить данные по мне, но что-то не срослось. Может, надо получше попросить :)
Вот рейтинги постов — это очень важная информация.
2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)
3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.
4) Еще бы было интересно сделать обертку для ссылок, чтобы видеть в той же панели количество кликов по отдельным ссылкам. Т.е. ссылка вида http://habr-analytics.com/7583?link=http://test.com/ которая бы при клике записывала в бд время клика и перенаправляла бы пользователя куда надо. И смотреть количество кликов там же, в мониторе постов, с наложением на остальные метрики.
5)наложить на график монитора поста вертикальные метки — вход в «захабренные», в «отхабренные», вход в «лучшие за сутки», «первое место в лучшем за сутки», «выход из лучшего за сутки», «окончания голосования за статью»
5)наложить на график монитора поста вертикальные метки — вход в «захабренные», в «отхабренные», вход в «лучшие за сутки», «первое место в лучшем за сутки», «выход из лучшего за сутки», «окончания голосования за статью»
4) Звучит интересно, это нужно для сбора какой-то дополнительной информации аля google analytics?
5) Над этим и сам думал, но решил подождать отклика на базовую версию — вдруг это вообще было никому не нужно.
5) Над этим и сам думал, но решил подождать отклика на базовую версию — вдруг это вообще было никому не нужно.
1) Вот рейтинги постов — это очень важная информация.
Так они же и реализованы по оси Х — даты публикации постов

или я не правильно понял эту часть комментария?
2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)
В принципе выглядит реализуемо, единственное, мне тут предлагают вообще визуализацию переделать, поэтому я пока подожду с добавлением сложной логики.
3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.
Вот тут я чуть-чуть поленился и перенес часть кода из standalone приложений, и на хабы компаний уже не хватило сил. Эту часть надо бы переписать под Heroku и добавить хабы компаний.
Жаль, не встроено в хабр :)
Изменение показателей статьи показано в часах от начала. На самом деле намного логичнее — в абсолютных часах. Т.е. по реальному времени. Посещаемость статьи связана не с дельтой от начала публикации, а со временем дня. Будет синусоида с максимумами на 1-2 часа дня и 8-9 вечера.
Еще одной полезной метрикой было бы близость к получению бейджей и что еще надо сделать чтобы получить очередной бейдж =)
А нельзя ли отсортировать хабы по алфавиту. Невозможно найти что либо.
Хотел посмотреть всякие няшные графики, но у видел лишь:
Application Offline for Maintenance
Sign up to leave a comment.
Пульс Хабра