cointegrated 8 янв 2018 в 15:54

Как я парсил Хабр, часть 1: тренды

6 мин

23K

Python*Веб-аналитика*Визуализация данных*Исследования и прогнозы в IT*

+62

Комментарии 45

baldr 8 янв 2018 в 17:24

Сразу видно что вы теоретик.
Уже 2 часа прошло, а к статье ни одного комментария. А стоило только добавить метки из тех самых «самых обсуждаемых».

cointegrated 8 янв 2018 в 18:01

Я скорее неторопливый практик :) Про идеально привлекательный текст будет следующая статья.

OKyJIucT 9 янв 2018 в 01:28

Его напишет нейросеть?)

JekaMas 9 янв 2018 в 10:57

Децентрализованно, в докере и получая данные через смарт-контракт в блокчейне…
Плюсы будут обеспечены, особенно, если вы таксист.

derSmoll 8 янв 2018 в 18:23

Самые «лайкабельные» темы: вконтакте, юмор, jquery

Что-то в этом есть :)

Спасибо за анализ

System12 9 янв 2018 в 15:35

Старый закон Паркинсона: «Время обсуждения любой проблемы обратно пропорциональна ее важности»

dionket 8 янв 2018 в 19:19

Для парсинга логичнее использовать потоки, а не процессы. Пробовал и так и эдак. Если правильно помню, 256 потоков едва загружали 1 ядро, правда сайт был довольно простой.

BuriK666 8 янв 2018 в 20:06

Мне для парсинга понравился scrapy

pozharskiy 8 янв 2018 в 21:18

крутой датасет, выложите куда-нибудь, думаю многим будет интересно покопаться

cointegrated 8 янв 2018 в 22:16

Да, когда сам наиграюсь с ним, выложу на яндекс.диск.

qwert_ukg 9 янв 2018 в 15:56

А может дадите список валидных PostId? А мы сами их опросим.

cointegrated 26 фев 2020 в 22:30

Таки руки не дошли доиграться, но выложил yadi.sk/d/JV5S4nUKUrkzsA

dmnBrest 8 янв 2018 в 22:13

А сколько по времени занял процесс стягивания контента? Хабр не банит чрезмерно активных пользователей?

cointegrated 8 янв 2018 в 22:15

Если не считать простоев, когда всё падало (в основном из за несоответствия структуры html ожидаемой), около 8 часов. На ноутбуке :)

AIxray 8 янв 2018 в 22:34

Было бы очень здорово добавлять по памяти сколько темы занимают и комментарии которых 6 миллионов.
Спасибо за то, что учли!

cointegrated 8 янв 2018 в 22:57

Добавил!

В результате тексты статей (без картинок) заняли у меня 1.5 гигабайта, комментарии с метаинформацией (автор, дата, голоса...) — ещё 3, и около сотни мегабайт — метаинформация о статьях. Такое можно полностью держать в оперативной памяти, что было для меня приятной неожиданностью.

kost 9 янв 2018 в 02:44

«Живых» статей оказалась только половина от потенциального максимума — 166307 штук. Про остальные Хабр даёт варианты «страница устарела, была удалена или не существовала вовсе».

Когда-то от Хабра отделился Geektimes, и часть статей была перенесена.

Squoworode 9 янв 2018 в 17:43

Перенесённые статьи при открытии по номеру перенаправляются в актуальное раположение. Не существуют только созданные после отделения.

allnightlong 9 янв 2018 в 08:55

Обычно, в таких ситуациях логичнее индексировать мобильную версию, а не десктопную, тем более, если сами пишете, что бутылочным горлышком была именно сеть.

К пример, ваша статья:
habrahabr.ru/post/346198 — 42кб
m.habrahabr.ru/post/346198 — 13кб
т.е. разница в 4 раза.

Ну и парсить потом будет проще.

oleg_chornyi 9 янв 2018 в 11:24

Частично, это связано с тем что в мобильной версии комментарии находятся на отдельной странице, но тем не менее вы правы — экономия будет все равно будет на уровне 60%.

bro-dev 9 янв 2018 в 10:07

Неужели никакой защиты нету, типа не больше 1к постов одному ип в сутки.

c4boomb 9 янв 2018 в 11:32

А зачем или от кого?

BuriK666 9 янв 2018 в 12:30

Я спрашивал у TM разрешения спарсить toster.ru.
Ответ:

Мы не запрещаем пользователям парсить наши ресурсы.

vyatsek 9 янв 2018 в 12:11

А почему не использовали RSS?

cointegrated 9 янв 2018 в 12:25

Не подумал :)

vyatsek 9 янв 2018 в 14:15

Все равно спасибо, интересно :)

delvin-fil 10 янв 2018 в 03:39

Да, кстати.
У меня практически 85% из фидера. Ссылки вида habrahabr.ru/post/346198?utm_source=habrahabr&utm_medium=rss&utm_campaign=346198 не учтены в статье.

cointegrated 10 янв 2018 в 09:15

Почему же не учтены? Они эквивалентны просто habrahabr.ru/post/346198

delvin-fil 10 янв 2018 в 14:09

эквивалентны

Я знаю, но имел ввиду другое.
Многие люди пользуются фидерами и о них, фидерах, ни слова. А мне было бы интересно узнать процент от общего количества пользователей.

cointegrated 10 янв 2018 в 14:15

Насколько я понимаю, открытых данных о доле просмотров Хабра через фидеры нет.
Можно попробовать спросить у его админов :)

delvin-fil 10 янв 2018 в 14:17

ХМ! Действительно, не подумал. :(

System12 9 янв 2018 в 12:25

Неплохая статистическая подборка для анализа.

user-vova 9 янв 2018 в 12:50

"Во-первых, говорят, что создавать больше процессов, чем ядер в процессоре, бесполезно."

С чего бы это? Вы же не асинхронное приложение пишите. А операции IO прекрасный кандидат для многопоточного приложения.

Gorodnya 9 янв 2018 в 13:55

«Живых» статей оказалась только половина от потенциального максимума — 166307 штук. Про остальные Хабр даёт варианты «страница устарела, была удалена или не существовала вовсе». Что ж, всякое бывает.

Где-то видел комментарий, что такая нумерация статей (грубо говоря, через одну) сделана намеренно.

Squoworode 9 янв 2018 в 17:40

Это последствия отделения Geektimes

andreyons 9 янв 2018 в 17:41

Во-первых, я собираюсь построить модель, прогнозирующую количество просмотров статьи в зависимости от её содержания.

Тут ведь ещё и время решает + естественный рост аудитории, да?

Во-вторых, хочется научить нейросеть генерировать тексты в той же стилистике, что и у авторов Хабра.

Как Ализар? =)

cointegrated 9 янв 2018 в 17:42

Время решает, но можно попытаться включить его как фактор) Ну или ограничиться комментариями, для которых точно известно время.

Можно ссылку на статью Ализара? :)

BuriK666 9 янв 2018 в 20:50

у него их 2.4к. alizar

Ekzodev 9 янв 2018 в 17:41

Весьма занятно, спасибо!
Подобную задачку решаю сейчас на досуге над другим известным порталом.
В ожидании вашего дата сета в общем доступе.

Rebel028 9 янв 2018 в 17:41

«Живых» статей оказалась только половина от потенциального максимума — 166307 штук. Про остальные Хабр даёт варианты «страница устарела, была удалена или не существовала вовсе».

Чтобы получить больше результатов можно попробовать парсить через сохабр, например, и/или другие архивы

zartarn 10 янв 2018 в 09:31

Сохабр этому ой как не обрадуется. Ему порой и так тяжко.

sfocusov 10 янв 2018 в 14:05

Интересно, это сеошники именно с Хабра ушли или из SEO в принципе… А то был такой тренд одно время — Panda и Penguin подсобили :)
cointegrated Не подскажете пост/статью, как парсить с помощью Python (для чайников)?

cointegrated 10 янв 2018 в 14:09

sfocusov, тут есть два подхода.
Можно get-запросами тягать сырые странички, и парсить с помощью beautifulsoup — вот здесь есть пример habrahabr.ru/post/280238
А если ваши странички сложные, и там должны отрабатывать джаваскрипты, то можно использовать Selenium, чтобы управлять из питона браузером — как тут vk.com/wall-130785301_96 или тут habrahabr.ru/post/131966

sfocusov 10 янв 2018 в 14:15

Отлично. Спасибо!

MagicMight 10 янв 2018 в 16:16

Самое любопытное, что в ноябре я сделал ровно то же самое! Написал парсер, который проходит по всем статьям каждого хаба от начала времен.
Заленился, разве что, на рисовании графиков и собственно написания статьи
В любом случае, занятно, что за короткий промежуток времени вижу точную реализацию собственной мысли!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий