Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
То есть число просмотров на мой взгляд, сильно зависит от видимости статьи (вероятности пользователя наткнуться на неё). Если вы, условно говоря, опубликовали статью, и через 5 минут люди опубликовали еще 20 статей, то ваша статья провалится вниз и никто ее не прочтет.Да. И более того, если опубликована «Техническая» статья, а близко по времени «Горячая» статья, то последняя может увести потенциальных читателей — зависит от размера и количиства комментов.
Даже самый популярный материал, набирающий тысячи просмотров, уйдет „в прошлое“ всего за 3-4 дня.Для «Горячих» статей это ожидаемо — сенсационность и актуальность могут быстро упасть. А для «Технических» статей это выглядит более странно. ИМХО можно объяснить тем, что большинству материал не сильно актуален, а читают и берут в закладки «на всякий случай — м.б. потом будет нужен».
Ну и Хабр все же развлекательный ресурс а не научный журнал.
Cоотношение просмотров и лайков… 400:1
можно видеть, что оно заметно выше чем в первом варианте и составляет грубо, 150:1
Если статья получит продолжение в другой статье, то сильно ли это повлият на показатели?Прирост есть, но незначительный — того же порядка, как были бы переходы на внешний сайт. Но для определённых «холиварных» материалов может достигать и 2-3 тыс. (Например, в прошлом году была серия про «необразованную молодёжь», там были большие приросты при отсылках. Та же история с любыми «сериальными» статьями). При отсылке к обычной технической статье прирост в рамках нескольких сотен просмотров, а то и меньше.
Интересно, как влияют споры и холивары в обсуждении на показатели статьи?Количество комментариев — по наблюдению — чаще всего влияет, т.к.: а) все идут посмотреть, да что же там так комментируют; б) справедливо и обратное — если статья интересная или спорная, её часто просматривают, значит, может быть много комментариев. И, как правило, если комментов нет, то и просмотров довольно мало, думаю, если «снять» данные, корреляция будет высокая.
На некоторых форумах запрещена «археология», на Хабре такого запрета нет.Археология немножко ограничена. Пользователи в статусе Read&Comment не могут комментировать публикации старше 30 дней. Как велика доля таких пользователей не могу сказать.
А вот следующий момент интереснее: число „лайков“ для таких статей растет заметно медленнее, чем число „закладок“. Тут все наоборот по сравнению с предыдущим вариантом — многие находят статью полезной, чтобы сохранить на будущее, но при этом читатель вовсе не обязательно нажмет „лайк“.
Это явление скорее в большей степени обусловлено тем, что пользователи с ограниченными правами (только читать и комментировать) не могут ставить лайки, но могут добавлять в закладки.
Мне кажется стоило считать не рейтинг, а общий рейтинг — общее количество плюсов и минусов. Ведь тут может быть не "забыли поставить оценку", а "ставили противоположные оценки".
Ну и почему рассмотрено только три статьи, почему так мало?
<span class="voting_wjt__counter voting_wjt__counter_positive js-score" title="Общий рейтинг 46: uarr;31 и darr;15">+16</span>Для начала определимся с метриками — что мы хотим узнать. Тут все просто, у каждой статьи есть 4 основных параметра, отображаемых на странице — это количество просмотров, лайков, закладок и комментариев. Их мы и будем анализировать.

Pandas хорошо интегрирован с seaborn. Реально удобнее и уже готовыми методами.

import matplotlib.dates as dates
import matplotlib.pyplot as plt
axis.set_minor_locator(dates.DayLocator())
axis.set_minor_formatter(dates.DateFormatter('%d'))
axis.set_major_locator(dates.MonthLocator())
axis.set_major_formatter(dates.DateFormatter('%b\n%Y'))
Что стало источником для адресов статей? Перебор всех id от 1 и до пока хватит терпения?
Хочу сам найти все лучшие статьи по количеству добавлений в закладки, вот только задачка где url брать.
Жизненный цикл статьи на Хабре: пишем хабрапарсер