Comments / Profile of ErhoSen / Habr

Владимир@ErhoSen

Backend Developer

Subscribers

Черная пятница. Как же всё было на самом деле

ErhoSen Jan 15 2014 at 10:12

Немного не понял, какой был смысл сохранять кучу хтмл-сорцов, если вас интересовали 3-4 символа с каждой страницы.

Ну и, соответственно, отсюда неясно, зачем потом эти 6гб двое суток распарсивать)

Тут напрашивается использование БД, которую, кстати, в последствии мог бы подёргать каждый желающий.

А исследование хорошее. Ещё раз убедился в том, что отечественный рынок «играет» в маркетинг.

-1

Экспорт Избранного на Хабре в PDF

ErhoSen Jan 13 2014 at 09:37

Не так давно тоже писал свой велосипед, но для Kindle. Скрипт умеет:
1. Вытягивать лучшие статейки по хабам. (используя бд из моего предыдущего поста)
2. Парсить избранное
3. Просто стянуть рандомную статью.

Для корректной работы, нужно скачать kindlen и указать у нему путь в habr_to_kindle.py.

В итоге

комментарии

Облако Mail.Ru — 1 терабайт бесплатно и навсегда

ErhoSen Dec 21 2013 at 07:26

Я бы не стал заливать своё домашнее gopro. По крайней мере в нешифрованном виде!

+17

Рейтинг постов хаба

ErhoSen Dec 4 2013 at 13:56

Действительно, в моих таблицах нету статей ни про цикад, ни про «приватный монитор». Спасибо, что заметили.

Решение проблемы

Посты парсятся по классу «posts shortcuts_items», но это не единственный возможный вариант представления поста на странице. Оказывается есть ещё и «post translation shortcuts_item», и, быть может, другие.

Но это решается очень просто — убираем конкретику из xpath-запроса, и всё парсится как надо:

for elem in grab.doc.select('//div[@class="posts shortcuts_items"]/div'):
    post_url = elem.node.find('h1[@class="title"]/a').get('href')
    ...

Вот так бывает, хотел перестраховаться, a упустил целый класс статей!

Рейтинг постов хаба

ErhoSen Dec 4 2013 at 06:22

Я к сожалению сейчас не могу объяснить почему топовые пост про монитор и «цикад» не попали в соответствующие топы. Вечером приду и разберусь.

А пост про провода в топе DIY.

Рейтинг постов хаба

ErhoSen Dec 4 2013 at 05:27

Зайдите в пост вечером.
Добавлю коммерцию, чулан, node js и еще несколько хабов, которые не попали изначально.

Рейтинг постов хаба

ErhoSen Dec 3 2013 at 18:51

Можно по количеству добавлений в избранное. Странно, что я раньше об этом не подумал!

1 2 ...

5 6