Comments 31
Интересное исследование! Но, мне кажется, вам надо было сделать еще кое-что, а именно:
— учитывать позицию статьи на главной: если статья вверху, она получает кучу новых просмотров, как только видимость уменьшается, число просмотров может упасть
— учитывать нахождение статьи в блоках вроде «что читают»/«что обсуждают». Если статья туда попадает и у нее интересный заголовок, это дает прирост просмотров
Было бы интересно соотнести позицию на главной, нахождение в блоках с приростом просмотров.
То есть число просмотров на мой взгляд, сильно зависит от видимости статьи (вероятности пользователя наткнуться на неё). Если вы, условно говоря, опубликовали статью, и через 5 минут люди опубликовали еще 20 статей, то ваша статья провалится вниз и никто ее не прочтет.
Что касается соотношения лайков к просмотрам, думаю, тут еще может играть роль, какие пользователи её читают — зарегистрированные с способностью ставить лайки или больше незарегистрированные.
— учитывать позицию статьи на главной: если статья вверху, она получает кучу новых просмотров, как только видимость уменьшается, число просмотров может упасть
— учитывать нахождение статьи в блоках вроде «что читают»/«что обсуждают». Если статья туда попадает и у нее интересный заголовок, это дает прирост просмотров
Было бы интересно соотнести позицию на главной, нахождение в блоках с приростом просмотров.
То есть число просмотров на мой взгляд, сильно зависит от видимости статьи (вероятности пользователя наткнуться на неё). Если вы, условно говоря, опубликовали статью, и через 5 минут люди опубликовали еще 20 статей, то ваша статья провалится вниз и никто ее не прочтет.
Что касается соотношения лайков к просмотрам, думаю, тут еще может играть роль, какие пользователи её читают — зарегистрированные с способностью ставить лайки или больше незарегистрированные.
+5
Хорошая идея, можно было добавлять в лог факт наличия статьи в боковом или нижнем блоке, и посмотреть как это влияет на просмотры.
Впрочем, каких-то необъяснимых всплесков на графиках и так не видно (хотя конечно _все_ статьи я не анализировал, меня бы забанили за DDOS-атаку если бы я выкачивал всё каждые 5 минут;).
Впрочем, каких-то необъяснимых всплесков на графиках и так не видно (хотя конечно _все_ статьи я не анализировал, меня бы забанили за DDOS-атаку если бы я выкачивал всё каждые 5 минут;).
+2
То есть число просмотров на мой взгляд, сильно зависит от видимости статьи (вероятности пользователя наткнуться на неё). Если вы, условно говоря, опубликовали статью, и через 5 минут люди опубликовали еще 20 статей, то ваша статья провалится вниз и никто ее не прочтет.Да. И более того, если опубликована «Техническая» статья, а близко по времени «Горячая» статья, то последняя может увести потенциальных читателей — зависит от размера и количиства комментов.
+1
Еще интересные вопросы:
Если статья получит продолжение в другой статье, то сильно ли это повлият на показатели?
При этом: если один автор и если разные.
Интересно, что комменты «Технических» статей обычно совсем прекращаются через несколько дней. На некоторых форумах запрещена «археология», на Хабре такого запрета нет.
Интересно, как влияют споры и холивары в обсуждении на показатели статьи? М.б. один случай, когда комментаторы выскажутся по 1 разу (кто похвалит, кто обругает), и другой случай, когда несколько человек спорят на много экранов.
Если статья получит продолжение в другой статье, то сильно ли это повлият на показатели?
При этом: если один автор и если разные.
Даже самый популярный материал, набирающий тысячи просмотров, уйдет „в прошлое“ всего за 3-4 дня.Для «Горячих» статей это ожидаемо — сенсационность и актуальность могут быстро упасть. А для «Технических» статей это выглядит более странно. ИМХО можно объяснить тем, что большинству материал не сильно актуален, а читают и берут в закладки «на всякий случай — м.б. потом будет нужен».
Интересно, что комменты «Технических» статей обычно совсем прекращаются через несколько дней. На некоторых форумах запрещена «археология», на Хабре такого запрета нет.
Интересно, как влияют споры и холивары в обсуждении на показатели статьи? М.б. один случай, когда комментаторы выскажутся по 1 разу (кто похвалит, кто обругает), и другой случай, когда несколько человек спорят на много экранов.
+1
Какой-то процент переходов из поисковых систем остается, и для старых статей, так что число просмотров слегка будет расти. Но это доли процентов имхо.
Холивары на показатели имхо почти не влияют — голосуют-то только один раз. Но тут есть другой момент, 'горячая' статья с 100к просмотров наберет гораздо больший рейтинг чем узкоспециализированная с 5к просмотров, даже если ее качество (views/likes) ниже, чисто за счет большого числа прочитавших. Что поделать, жизнь неидеальна. Ну и Хабр все же развлекательный ресурс а не научный журнал.
Холивары на показатели имхо почти не влияют — голосуют-то только один раз. Но тут есть другой момент, 'горячая' статья с 100к просмотров наберет гораздо больший рейтинг чем узкоспециализированная с 5к просмотров, даже если ее качество (views/likes) ниже, чисто за счет большого числа прочитавших. Что поделать, жизнь неидеальна. Ну и Хабр все же развлекательный ресурс а не научный журнал.
+4
Cпасибо за статью, хороший пример результата работы неспокойной головы и правильных рук.)
Я бы сказал, развлекательный + научный = образовательный.
Ну и Хабр все же развлекательный ресурс а не научный журнал.
Я бы сказал, развлекательный + научный = образовательный.
ошибка в тексте?
150:1 > 400:1?
Cоотношение просмотров и лайков… 400:1
можно видеть, что оно заметно выше чем в первом варианте и составляет грубо, 150:1
150:1 > 400:1?
0
Отвечу вам скорее как бывший автор статей, ну и как наблюдатель, конечно.
Если статья получит продолжение в другой статье, то сильно ли это повлият на показатели?Прирост есть, но незначительный — того же порядка, как были бы переходы на внешний сайт. Но для определённых «холиварных» материалов может достигать и 2-3 тыс. (Например, в прошлом году была серия про «необразованную молодёжь», там были большие приросты при отсылках. Та же история с любыми «сериальными» статьями). При отсылке к обычной технической статье прирост в рамках нескольких сотен просмотров, а то и меньше.
Интересно, как влияют споры и холивары в обсуждении на показатели статьи?Количество комментариев — по наблюдению — чаще всего влияет, т.к.: а) все идут посмотреть, да что же там так комментируют; б) справедливо и обратное — если статья интересная или спорная, её часто просматривают, значит, может быть много комментариев. И, как правило, если комментов нет, то и просмотров довольно мало, думаю, если «снять» данные, корреляция будет высокая.
+1
У меня мои статьи просто пассивно получают около 400-500 просмотров ежедневно.
+1
На некоторых форумах запрещена «археология», на Хабре такого запрета нет.Археология немножко ограничена. Пользователи в статусе Read&Comment не могут комментировать публикации старше 30 дней. Как велика доля таких пользователей не могу сказать.
0
А вот следующий момент интереснее: число „лайков“ для таких статей растет заметно медленнее, чем число „закладок“. Тут все наоборот по сравнению с предыдущим вариантом — многие находят статью полезной, чтобы сохранить на будущее, но при этом читатель вовсе не обязательно нажмет „лайк“.
Это явление скорее в большей степени обусловлено тем, что пользователи с ограниченными правами (только читать и комментировать) не могут ставить лайки, но могут добавлять в закладки.
+3
Закладку можно и не на хабре сделать, а в браузере. Лайк или дизлайк большинство не могут поставить.
Я свои статьи публиковал в пятницу вечером, когда вероятность набрать просмотры минимальна, однако, так имелось время ответить на комменты в выходные. В понедельник в общем списке статью уже было сложно найти. Но, одна статья написанная более года назад стабильно держит около 200 просмотров каждый день. То есть, стабильно в течение года. При этом, в первые дни после публикации она набрала не так уж и много просмотров.
Я свои статьи публиковал в пятницу вечером, когда вероятность набрать просмотры минимальна, однако, так имелось время ответить на комменты в выходные. В понедельник в общем списке статью уже было сложно найти. Но, одна статья написанная более года назад стабильно держит около 200 просмотров каждый день. То есть, стабильно в течение года. При этом, в первые дни после публикации она набрала не так уж и много просмотров.
0
Мне кажется стоило считать не рейтинг, а общий рейтинг — общее количество плюсов и минусов. Ведь тут может быть не "забыли поставить оценку", а "ставили противоположные оценки".
Ну и почему рассмотрено только три статьи, почему так мало?
0
Рейтинг я и считал как сумму оценок — лайков и дизлайков.
Хотя сейчас посмотрел HTML-исходник еще раз — в нем хранится и количество «плюсов», и количество «минусов» отдельно в параметрах uarr и darr:
Так что даже интереснее было бы вывести отдельно двумя графиками (для популярных статей было бы интересно сравнить рост лайков и дизлайков), но уже поздно переделывать :)
Хотя сейчас посмотрел HTML-исходник еще раз — в нем хранится и количество «плюсов», и количество «минусов» отдельно в параметрах uarr и darr:
<span class="voting_wjt__counter voting_wjt__counter_positive js-score" title="Общий рейтинг 46: uarr;31 и darr;15">+16</span>
Так что даже интереснее было бы вывести отдельно двумя графиками (для популярных статей было бы интересно сравнить рост лайков и дизлайков), но уже поздно переделывать :)
0
Для начала определимся с метриками — что мы хотим узнать. Тут все просто, у каждой статьи есть 4 основных параметра, отображаемых на странице — это количество просмотров, лайков, закладок и комментариев. Их мы и будем анализировать.
Тут есть тонкости
1. «лайки» могут ставить далеко не все.
2. Комментируют тоже далеко не все. Даже если человеку есть что сказать — комментирование (и ответы) занимает время, которое лишним не бывает. Тем более, что жизнь у комментария в подавляющем большинстве случая еще короче, чем у статьи.
3. «Закладки» я обычно сохраняю в OneNote — так намного удобнее (рубрики, поиск). Думаю, что не я один (и не обязательно в OneNote)
Кроме того, с учетом того факта, что статья может внезапно исчезнуть — иногда сохраняю и полный текст статьи.
Так что для начала надо бы провести опрос — кто, где и как часто.
0
Да, разумеется.
Достоверно мы здесь знаем только число просмотров, остальное уже более приблизительно — человек может не захотеть писать комментарий, сохранять закладки где-то в другом месте, и пр.
Насчет комментариев, я обычно не комментирую если вижу что их >50 — высока вероятность, что такую массу уже никто не будет заморачиваться читать.
Достоверно мы здесь знаем только число просмотров, остальное уже более приблизительно — человек может не захотеть писать комментарий, сохранять закладки где-то в другом месте, и пр.
Насчет комментариев, я обычно не комментирую если вижу что их >50 — высока вероятность, что такую массу уже никто не будет заморачиваться читать.
0
Могу я предложить визуализировать через seaborn? Тут круто бы смотрелся timeseries plot. Сразу видно распределение плотности вероятности. seaborn.pydata.org/examples/errorband_lineplots.html
+2
Спасибо за идею, попробую.
0
Подобное можно сделать без seaborn: обычной линией и полупрозрачными fill_between с нужными квантилями, например
0
А этот seaborn кстати бесплатный? Я давно хотел его попробовать, но до реального использования так и не дошло, matplotlib в целом устраивает (единственный минус, на больших наборах точек он все же тормозит).
0
Вроде бесплатный. А на какого размера наборах matplotlib подтормаживает. У меня временнЫе данные с минутным разрешением длиной в неделю и рядов в 40 шириной довольно быстро рисует contourf. Вот когда большого размера изображения рисовать приходится, тогда задумывается
0
Pandas хорошо интегрирован с seaborn. Реально удобнее и уже готовыми методами.
0
Надо на хабре ввести сортировку по likes/views и bookmarks/views за определенный период времени для поиска качественных статей.
+1
Если под running_mean имелось ввиду скользящее среднее, то у Pandas есть метод rolling специально для этого. Он и со временем работать умеет.
0
Спасибо, попробую. Я пробовал какой-то метод из numpy, но он меняет размер массива и matplotlib уже не рисует когда 2 массива разной длины, влом было разбираться, взял другую реализацию.
0
Мне когда-то понравилось как обёртки в pandas преображают оси, на которых отложено время, как здесь
Но работать с графиками из самого pandas не всегда удобно, поэтому в несколько строк кода можно сделать подобное и в matplotlib:
axis — нужная ось
Но работать с графиками из самого pandas не всегда удобно, поэтому в несколько строк кода можно сделать подобное и в matplotlib:
import matplotlib.dates as dates
import matplotlib.pyplot as plt
axis.set_minor_locator(dates.DayLocator())
axis.set_minor_formatter(dates.DateFormatter('%d'))
axis.set_major_locator(dates.MonthLocator())
axis.set_major_formatter(dates.DateFormatter('%b\n%Y'))
axis — нужная ось
+1
А как распарсить html если страница через js дорисовывается?
0
Что стало источником для адресов статей? Перебор всех id от 1 и до пока хватит терпения?
Хочу сам найти все лучшие статьи по количеству добавлений в закладки, вот только задачка где url брать.
0
Sign up to leave a comment.
Жизненный цикл статьи на Хабре: пишем хабрапарсер