Комментарии 13
Интересная статья, но возник вопрос: есть ли возможность проанализировать больше чем 1000 статей (которые убираются на 50 страницах) путём поиска аккаунтов всего хабра на предмет публикаций (или просто брутфорсом ссылок статей от 1 до 440955) и уже парсинга этого? Интересно посмотреть графики за 13 лет в виде анализа 400 тысяч статей.
...
Ещё интересней посмотреть на анализ 20М комментариев.
+1
Да, посмотреть данные за год было бы интересно.
Можно открыть список авторов сайта, для каждого открыть список статей, но насколько выборка будет полной, не знаю. Проще попросить админов сделать запрос к базе и прислать готовый csv с нужными полями :)
Можно открыть список авторов сайта, для каждого открыть список статей, но насколько выборка будет полной, не знаю. Проще попросить админов сделать запрос к базе и прислать готовый csv с нужными полями :)
0
Мне кажется проще сделать брутфорс статей простым запросом, если статья существует то вноситься в базу (можно импортировать библиотеку для работы с файлами и записывать в текствовик), и уже базу url'ов статей анализировать.
По моим прикидкам 100 000 статей существуют и их можно просмотреть сейчас.
По моим прикидкам 100 000 статей существуют и их можно просмотреть сейчас.
0
Не хочется создавать нагрузку на сервер. Статьи, опубликованные сегодня, имеют URL вроде habr.com/ru/post/441064 — выкачивать 440000 статей не хотелось бы. Хотя если парсить 2 статьи в секунду, сервер это не нагрузит, на 400тыс запросов уйдет где-то 60 часов, в принципе реально.
Но при этом не будут учитываться корпоративные блоги, у них другие адреса. И не факт что раньше формат адресов был тем же.
Но при этом не будут учитываться корпоративные блоги, у них другие адреса. И не факт что раньше формат адресов был тем же.
0
Но при этом не будут учитываться корпоративные блоги, у них другие адреса.
Их можно не считать, или просчитать отдельно.
И не факт что раньше формат адресов был тем же.
Вот например статья от 2008 года habr.com/ru/post/28870, url одного формата, html код таблички class=«post-stats post-stats_post js-user_» одинаков, или вы о другом?
UDP:
Не хочется создавать нагрузку на сервер.
Я думаю если выкачивать выкачивать статьи вида ulr+html код «метрики» которая весит меньше килобайта, то даже 100 статей/с никак не отразиться на сайте, обычный пользователь больше генерирует трафика.
0
Да, спасибо, действительно все открывается.
PS: Оказывается есть публикации и с 2х значными номерами :)
habr.com/ru/post/28
И даже Самая Первая Статья habr.com/ru/post/1
PS: Оказывается есть публикации и с 2х значными номерами :)
habr.com/ru/post/28
И даже Самая Первая Статья habr.com/ru/post/1
0
Статьи с наибольшим числом дизлайков
Очень ИМХО интересная статистика! Из 5 статей:
1 — Читальный зал, 1 холиварная (про Wind 10), а остальные 3 можно отнести к «альтернативной науке». И после этого многие считают, что Хабр ненаучный ресурс?
0
пробывали сопоставить соотношения публикации vk оф страница(habr) с просмотрами? к примеру если статью выложили в группе вк во столько, то интерес к статье резко увеличился?
0
А в vk есть оф.страница хабра? Я не в курсе, у меня даже аккаунта там нет :)
+1
да есть vk.com/habr
0
Это, кстати, интересный вопрос. Эмпирически я не раз замечала, как интерес к статье резко увеличивается после публикации ссылки на неё в соцсетях.
0
Зарегистрируйтесь на Хабре , чтобы оставить комментарий
Жизненный цикл статьи на Хабре: пишем хабрапарсер. Часть вторая