Pull to refresh

Comments 13

Интересная статья, но возник вопрос: есть ли возможность проанализировать больше чем 1000 статей (которые убираются на 50 страницах) путём поиска аккаунтов всего хабра на предмет публикаций (или просто брутфорсом ссылок статей от 1 до 440955) и уже парсинга этого? Интересно посмотреть графики за 13 лет в виде анализа 400 тысяч статей.
...
Ещё интересней посмотреть на анализ 20М комментариев.
Да, посмотреть данные за год было бы интересно.

Можно открыть список авторов сайта, для каждого открыть список статей, но насколько выборка будет полной, не знаю. Проще попросить админов сделать запрос к базе и прислать готовый csv с нужными полями :)
Мне кажется проще сделать брутфорс статей простым запросом, если статья существует то вноситься в базу (можно импортировать библиотеку для работы с файлами и записывать в текствовик), и уже базу url'ов статей анализировать.
По моим прикидкам 100 000 статей существуют и их можно просмотреть сейчас.
Не хочется создавать нагрузку на сервер. Статьи, опубликованные сегодня, имеют URL вроде habr.com/ru/post/441064 — выкачивать 440000 статей не хотелось бы. Хотя если парсить 2 статьи в секунду, сервер это не нагрузит, на 400тыс запросов уйдет где-то 60 часов, в принципе реально.

Но при этом не будут учитываться корпоративные блоги, у них другие адреса. И не факт что раньше формат адресов был тем же.
Но при этом не будут учитываться корпоративные блоги, у них другие адреса.

Их можно не считать, или просчитать отдельно.
И не факт что раньше формат адресов был тем же.

Вот например статья от 2008 года habr.com/ru/post/28870, url одного формата, html код таблички class=«post-stats post-stats_post js-user_» одинаков, или вы о другом?

UDP:
Не хочется создавать нагрузку на сервер.

Я думаю если выкачивать выкачивать статьи вида ulr+html код «метрики» которая весит меньше килобайта, то даже 100 статей/с никак не отразиться на сайте, обычный пользователь больше генерирует трафика.
Вот кстати индексация гугла говорит о том что на хабре 175 или 190 тысяч статей.
скриншоты
image
image
Статьи с наибольшим числом дизлайков

Очень ИМХО интересная статистика! Из 5 статей:
1 — Читальный зал, 1 холиварная (про Wind 10), а остальные 3 можно отнести к «альтернативной науке». И после этого многие считают, что Хабр ненаучный ресурс?
пробывали сопоставить соотношения публикации vk оф страница(habr) с просмотрами? к примеру если статью выложили в группе вк во столько, то интерес к статье резко увеличился?
Это, кстати, интересный вопрос. Эмпирически я не раз замечала, как интерес к статье резко увеличивается после публикации ссылки на неё в соцсетях.
Sign up to leave a comment.

Articles