Комментарии 45
Сразу видно что вы теоретик.
Уже 2 часа прошло, а к статье ни одного комментария. А стоило только добавить метки из тех самых «самых обсуждаемых».
Уже 2 часа прошло, а к статье ни одного комментария. А стоило только добавить метки из тех самых «самых обсуждаемых».
Самые «лайкабельные» темы: вконтакте, юмор, jquery
Что-то в этом есть :)
Спасибо за анализ
Для парсинга логичнее использовать потоки, а не процессы. Пробовал и так и эдак. Если правильно помню, 256 потоков едва загружали 1 ядро, правда сайт был довольно простой.
крутой датасет, выложите куда-нибудь, думаю многим будет интересно покопаться
Да, когда сам наиграюсь с ним, выложу на яндекс.диск.
Таки руки не дошли доиграться, но выложил yadi.sk/d/JV5S4nUKUrkzsA
А сколько по времени занял процесс стягивания контента? Хабр не банит чрезмерно активных пользователей?
Было бы очень здорово добавлять по памяти сколько темы занимают и комментарии которых 6 миллионов.
Спасибо за то, что учли!
Спасибо за то, что учли!
«Живых» статей оказалась только половина от потенциального максимума — 166307 штук. Про остальные Хабр даёт варианты «страница устарела, была удалена или не существовала вовсе».
Когда-то от Хабра отделился Geektimes, и часть статей была перенесена.
Обычно, в таких ситуациях логичнее индексировать мобильную версию, а не десктопную, тем более, если сами пишете, что бутылочным горлышком была именно сеть.
К пример, ваша статья:
habrahabr.ru/post/346198 — 42кб
m.habrahabr.ru/post/346198 — 13кб
т.е. разница в 4 раза.
Ну и парсить потом будет проще.
К пример, ваша статья:
habrahabr.ru/post/346198 — 42кб
m.habrahabr.ru/post/346198 — 13кб
т.е. разница в 4 раза.
Ну и парсить потом будет проще.
Неужели никакой защиты нету, типа не больше 1к постов одному ип в сутки.
А почему не использовали RSS?
Не подумал :)
Да, кстати.
У меня практически 85% из фидера. Ссылки вида habrahabr.ru/post/346198?utm_source=habrahabr&utm_medium=rss&utm_campaign=346198 не учтены в статье.
У меня практически 85% из фидера. Ссылки вида habrahabr.ru/post/346198?utm_source=habrahabr&utm_medium=rss&utm_campaign=346198 не учтены в статье.
Почему же не учтены? Они эквивалентны просто habrahabr.ru/post/346198
эквивалентны
Я знаю, но имел ввиду другое.
Многие люди пользуются фидерами и о них, фидерах, ни слова. А мне было бы интересно узнать процент от общего количества пользователей.
Неплохая статистическая подборка для анализа.
"Во-первых, говорят, что создавать больше процессов, чем ядер в процессоре, бесполезно."
С чего бы это? Вы же не асинхронное приложение пишите. А операции IO прекрасный кандидат для многопоточного приложения.
«Живых» статей оказалась только половина от потенциального максимума — 166307 штук. Про остальные Хабр даёт варианты «страница устарела, была удалена или не существовала вовсе». Что ж, всякое бывает.
Где-то видел комментарий, что такая нумерация статей (грубо говоря, через одну) сделана намеренно.
Во-первых, я собираюсь построить модель, прогнозирующую количество просмотров статьи в зависимости от её содержания.
Тут ведь ещё и время решает + естественный рост аудитории, да?
Во-вторых, хочется научить нейросеть генерировать тексты в той же стилистике, что и у авторов Хабра.
Как Ализар? =)
Весьма занятно, спасибо!
Подобную задачку решаю сейчас на досуге над другим известным порталом.
В ожидании вашего дата сета в общем доступе.
Подобную задачку решаю сейчас на досуге над другим известным порталом.
В ожидании вашего дата сета в общем доступе.
«Живых» статей оказалась только половина от потенциального максимума — 166307 штук. Про остальные Хабр даёт варианты «страница устарела, была удалена или не существовала вовсе».
Чтобы получить больше результатов можно попробовать парсить через сохабр, например, и/или другие архивы
Интересно, это сеошники именно с Хабра ушли или из SEO в принципе… А то был такой тренд одно время — Panda и Penguin подсобили :)
cointegrated Не подскажете пост/статью, как парсить с помощью Python (для чайников)?
cointegrated Не подскажете пост/статью, как парсить с помощью Python (для чайников)?
sfocusov, тут есть два подхода.
Можно get-запросами тягать сырые странички, и парсить с помощью beautifulsoup — вот здесь есть пример habrahabr.ru/post/280238
А если ваши странички сложные, и там должны отрабатывать джаваскрипты, то можно использовать Selenium, чтобы управлять из питона браузером — как тут vk.com/wall-130785301_96 или тут habrahabr.ru/post/131966
Можно get-запросами тягать сырые странички, и парсить с помощью beautifulsoup — вот здесь есть пример habrahabr.ru/post/280238
А если ваши странички сложные, и там должны отрабатывать джаваскрипты, то можно использовать Selenium, чтобы управлять из питона браузером — как тут vk.com/wall-130785301_96 или тут habrahabr.ru/post/131966
Самое любопытное, что в ноябре я сделал ровно то же самое! Написал парсер, который проходит по всем статьям каждого хаба от начала времен.
Заленился, разве что, на рисовании графиков и собственно написания статьи
В любом случае, занятно, что за короткий промежуток времени вижу точную реализацию собственной мысли!
Заленился, разве что, на рисовании графиков и собственно написания статьи
В любом случае, занятно, что за короткий промежуток времени вижу точную реализацию собственной мысли!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как я парсил Хабр, часть 1: тренды