Comments 13
Интересная статья, но возник вопрос: есть ли возможность проанализировать больше чем 1000 статей (которые убираются на 50 страницах) путём поиска аккаунтов всего хабра на предмет публикаций (или просто брутфорсом ссылок статей от 1 до 440955) и уже парсинга этого? Интересно посмотреть графики за 13 лет в виде анализа 400 тысяч статей.
...
Ещё интересней посмотреть на анализ 20М комментариев.
Да, посмотреть данные за год было бы интересно.
Можно открыть список авторов сайта, для каждого открыть список статей, но насколько выборка будет полной, не знаю. Проще попросить админов сделать запрос к базе и прислать готовый csv с нужными полями :)
Можно открыть список авторов сайта, для каждого открыть список статей, но насколько выборка будет полной, не знаю. Проще попросить админов сделать запрос к базе и прислать готовый csv с нужными полями :)
Мне кажется проще сделать брутфорс статей простым запросом, если статья существует то вноситься в базу (можно импортировать библиотеку для работы с файлами и записывать в текствовик), и уже базу url'ов статей анализировать.
По моим прикидкам 100 000 статей существуют и их можно просмотреть сейчас.
По моим прикидкам 100 000 статей существуют и их можно просмотреть сейчас.
Не хочется создавать нагрузку на сервер. Статьи, опубликованные сегодня, имеют URL вроде habr.com/ru/post/441064 — выкачивать 440000 статей не хотелось бы. Хотя если парсить 2 статьи в секунду, сервер это не нагрузит, на 400тыс запросов уйдет где-то 60 часов, в принципе реально.
Но при этом не будут учитываться корпоративные блоги, у них другие адреса. И не факт что раньше формат адресов был тем же.
Но при этом не будут учитываться корпоративные блоги, у них другие адреса. И не факт что раньше формат адресов был тем же.
Но при этом не будут учитываться корпоративные блоги, у них другие адреса.
Их можно не считать, или просчитать отдельно.
И не факт что раньше формат адресов был тем же.
Вот например статья от 2008 года habr.com/ru/post/28870, url одного формата, html код таблички class=«post-stats post-stats_post js-user_» одинаков, или вы о другом?
UDP:
Не хочется создавать нагрузку на сервер.
Я думаю если выкачивать выкачивать статьи вида ulr+html код «метрики» которая весит меньше килобайта, то даже 100 статей/с никак не отразиться на сайте, обычный пользователь больше генерирует трафика.
Да, спасибо, действительно все открывается.
PS: Оказывается есть публикации и с 2х значными номерами :)
habr.com/ru/post/28
И даже Самая Первая Статья habr.com/ru/post/1
PS: Оказывается есть публикации и с 2х значными номерами :)
habr.com/ru/post/28
И даже Самая Первая Статья habr.com/ru/post/1
Статьи с наибольшим числом дизлайков
Очень ИМХО интересная статистика! Из 5 статей:
1 — Читальный зал, 1 холиварная (про Wind 10), а остальные 3 можно отнести к «альтернативной науке». И после этого многие считают, что Хабр ненаучный ресурс?
пробывали сопоставить соотношения публикации vk оф страница(habr) с просмотрами? к примеру если статью выложили в группе вк во столько, то интерес к статье резко увеличился?
А в vk есть оф.страница хабра? Я не в курсе, у меня даже аккаунта там нет :)
да есть vk.com/habr
Это, кстати, интересный вопрос. Эмпирически я не раз замечала, как интерес к статье резко увеличивается после публикации ссылки на неё в соцсетях.
Sign up to leave a comment.
Жизненный цикл статьи на Хабре: пишем хабрапарсер. Часть вторая