alexoy 5 сен 2011 в 21:36

Оповещение появления нового топика на Хабрахабре с помощью Python

6 мин

Комментарии 73

akzhan 5 сен 2011 в 21:46

<link title="" type="application/rss+xml" rel="alternate" href="http://habrahabr.ru/rss/.../"/>

Levsha100 5 сен 2011 в 21:48

Построчно парсить на пайтоне- такого я еще не видел.

+14

Tishka17 6 сен 2011 в 06:56

А качать wget'ом видели?

Amka 5 сен 2011 в 22:04

Почему бы не использовать urllib и lxml для парсинга RSS, что более удобно, нежели построчно читать на Python…

alexoy 5 сен 2011 в 22:23

Можно, а я хотел сам сделать от и до. А если человеку понравится… а такие уже есть — не надо ничего дополнительно устанавливать, просто скопировать

Amka 5 сен 2011 в 22:24

К счастью, оба модуля являются стандартными для Python =)

alexoy 5 сен 2011 в 22:29

хм… у меня lxml не было

Amka 5 сен 2011 в 22:32

Если память не изменяет, нынче он включен в состав Python как ElementTree.

НЛО прилетело и опубликовало эту надпись здесь

Amka 5 сен 2011 в 22:38

Что ж, память мне изменяет :)

wRAR 5 сен 2011 в 22:40

Скорее наоборот, да: lxml aims to provide a Pythonic API by following as much as possible the ElementTree API.

VolCh 5 сен 2011 в 22:28

Ну os.* же вы используете, а не пишите модули на ассембле для посекторного чтения с винта и запросов к хабру через порты сетевой карты :)

wRAR 5 сен 2011 в 22:37

Проблемы от подобных статей не только в том, что они засоряют интернет.
Человеку, действительно, может понравиться, и он возьмёт на вооружение представленные в статье подходы или код, и плохого кода в мире станет ещё больше.

НЛО прилетело и опубликовало эту надпись здесь

VolCh 5 сен 2011 в 22:25

Можно и главную парсить, если мозги с RSS несовместимы, как у меня :)

-1

AlexeyK 5 сен 2011 в 22:10

спонсор топика МАТЬ МОЯ ЖЕНЩИНА!!!

+10

JustLuckyGuy 5 сен 2011 в 22:19

а зачем?

alexoy 5 сен 2011 в 22:25

Не надо лазить самому в интернет если занят другими делами. Выскочила табличка — ага… не интересно! Выскочила снова — о… а это можно почитать! Я не претендую на премию — мне интересно было сделать и показать.

-1

wRAR 5 сен 2011 в 22:26

В этой статье, традиционно для Хабра, плохо ВСЁ.
От подхода до «while(1)».

+10

p0is0n 5 сен 2011 в 22:31

Вы обижаете питон.

+16

mktums 5 сен 2011 в 22:44

Это php-код на Питоне, простите.

VolCh 5 сен 2011 в 23:11

За что так PHP? DOM+XPath заменят 90% кода этого творения в несколько строк. А вызов notify-send через system он и в Африке вызов.

wRAR 5 сен 2011 в 23:18

К libnotify есть биндинги.

VolCh 5 сен 2011 в 23:33

Не нашёл, да ладно, в этой задаче не критично.

mktums 6 сен 2011 в 09:00

Я про code styling говорил.

VolCh 6 сен 2011 в 14:13

В PHP его вообще нет :)

kushti 6 сен 2011 в 14:23

это аттрибут программиста, а не языка, в чем можно лишний раз убедиться из этой статьи

mktums 7 сен 2011 в 09:37

ORLY?

VolCh 9 сен 2011 в 03:37

RLY!!! Ваш URL намекает…

alexoy 5 сен 2011 в 23:07

Чем именно плох код? Он делает именно то, что нужно, ничего лишнего не напичкано.

-2

wRAR 5 сен 2011 в 23:19

Код плох тем, что в нём практически каждая строка написана не так, как надо писать на питоне.
Кроме того, код решает неправильную задачу неправильным способом.

Norraxx 5 сен 2011 в 23:52

Питон сам по себе минималистический язык, где всё просто, и ваша програмка должна быть простенькая, потом её приятно читать. Вы посмотрите в сторону выше упомянутых библиотек лхмл и урллиб2. Поверьте, меньше гемороя, больше спокойствия.
Драть HTML с помощю wget, потому, что вгет это умеет, и парсить что-то по строчкам, ето жесть!

Давайте напишем питоновский скрипт а из него будем вызывать PHP функцию file_get_contents?

wRAR 5 сен 2011 в 23:57

Следующий этап — скачка и парсинг рсса тем же lxml или чем-нибудь встроенным. Следующий — парсинг его feedparser'ом. Следующий — использование рсс-ридера вместо написания ненужного кода.
Только вот перед тем, как менять стрингметоды и os.system на lxml и урллиб, придётся всё-таки прочитать хотя бы tutorial и узнать, как же пишут на питоне.

Norraxx 6 сен 2011 в 00:00

А ну да, тоже мелочь…

VolCh 6 сен 2011 в 14:18

использование рсс-ридера вместо написания ненужного кода.

Сколько ни пробовал RSS-ридеров, но ни один не прижился. Главная причина — куча ни то что не нужной, а мешающей функциональности при отсутствии нужной. А парсить ленту хабра или его главную — технической разницы не вижу.

wRAR 6 сен 2011 в 14:28

> А парсить ленту хабра или его главную — технической разницы не вижу.

Бывает.

VolCh 6 сен 2011 в 14:34

Я как-то думал, что RSS это тоже подмножество SGML и техника парсинга одна и та же.

wRAR 6 сен 2011 в 14:37

Бывает.
RSS это XML, а парсить XML можно проще, чем любой другой SGML.

VolCh 9 сен 2011 в 03:41

Вы гарантируете, что RSS на хабре будет всегда, хотя бы, well formed или мне надо доверяться ТМ в этом так же, как и в том, что HTML на главной будет всегда валидный?

wRAR 9 сен 2011 в 08:42

Я не рассматриваю клинические случаи.

VolCh 10 сен 2011 в 21:27

В случае с python, да, согласен признать вашу правоту — XML проще парсить.

wRAR 11 сен 2011 в 15:31

Это проще везде, где есть DOM-парсеры.
Ну т.е. на питоне-то как раз без разницы, lxml и из хтмля DOM сделает.

itforge 6 сен 2011 в 14:42

Техника парсинга rss это import feedparser; feedparser.parse(url) :)

VolCh 9 сен 2011 в 03:39

volch@ubuhost:~$ python

Python 2.7.1+ (r271:86832, Apr 11 2011, 18:05:24) 

[GCC 4.5.2] on linux2

Type "help", "copyright", "credits" or "license" for more information.

>>> import feedparser

Traceback (most recent call last):

 File "", line 1, in ImportError: No module named feedparser

itforge 9 сен 2011 в 08:40

sudo pip install feedparser

VolCh 10 сен 2011 в 21:25

Для себя пойдёт, для публично распространяемого скрипта в исходниках я бы не стал вводить лишние зависимости, требующих ручного удовлетворения. Или оформил бы сам в виде пакета. Правда заморочек бы было наверное… Проще самому парсер на основе стандартных либ написать, имхо.

itforge 10 сен 2011 в 21:59

А я бы стал. А у кого нет возможности поставить feedparser, это его проблемы. А может он python не может поставить, я что теперь должен на C переписать скрипт и распространять его в бинарниках для разных платформ? А вдруг у него деньги на счёте провайдера кончились, мне теперь бегать ему домой приносить содержимое страниц на дискетках? Я считаю, в желании угодить пользователю надо соблюдать оптимальный балланс.

> Или оформил бы сам в виде пакета. Правда заморочек бы было наверное…

Это всего лишь одна строчка в setup.py, install_requires называется.

> Проще самому парсер на основе стандартных либ написать, имхо.

И собрать все грабли, что были пофиксены в фидпарсере за время его развития.

VolCh 10 сен 2011 в 22:57

Питон в моём дистре стоит, потому не вопрос. Имхо, оптимальный баланс — скопипастил исходники или скачал файл и всё работает. Бегать не буду, но и тестировать под другими дистрами и осями скрипт, сделанный для себя, тоже.

>Это всего лишь одна строчка в setup.py, install_requires называется.

Если бы я сам разбирался мне нужно было бы, как минимум, узнать:
— что файл называется setup.py
— где он должен лежать
— какая это строчка
— куда эти файлы (setup.py и, скажем, habramonitor.py ) закачивать

25% моих проблем на будущее вы решили :)

itforge 11 сен 2011 в 06:14

> Имхо, оптимальный баланс — скопипастил исходники или скачал файл и всё работает.

Копипастят исходники, скачивают файлы нубы. Люди в теме ставят нужные пакеты через aptitude, easy_install и pip, преимущественно в virtualenv. А другие люди в теме подготовливают эти пакеты.

> скрипт, сделанный для себя
Если скрипт сделан для себя, то обсуждать особого смысла нет — вы делаете, как вам больше нравится в рамках вашего опыта. Если для других — правильный путь сделать distutitls пакет и прописать в нём зависимости.

alexoy 11 сен 2011 в 13:40

> Копипастят исходники, скачивают файлы нубы
Скажите это гентушникам)… которые неделями могут с этими делами капаться

itforge 11 сен 2011 в 15:13

При чём тут гентушники, мы говорим о принятом в python-мире распространении программ.

VolCh 11 сен 2011 в 20:10

Если есть исходники, но нет пакета, то я скачаю исходники лучше. Если решу поделиться, то предоставлю исходники и инструкции для таких же нубов :), а если у людей в теме будет желание, то на базе моих исходников они сделают пакет — разделение труда, личный вклад в open source и всё такое :) Просто разбираться с системами управления пакетами нет желания, один пробовал сделать пакет nginx+passenger — так толком ничего и не получилось, не осилил :(

wRAR 11 сен 2011 в 15:28

В моём дистре и feedparser есть.

wRAR 11 сен 2011 в 15:29

А если вы про setup.py не знаете (о нём написано в официальной доке с очевидным названием), вам не надо распространять питоний софт.

VolCh 11 сен 2011 в 20:12

А я распространять не собираюсь, может когда-то решу поделиться своими наработками где-нить на битбакете — кому понравится обойдутся и без сетапа, или пришлют патч с сетапом.

wRAR 11 сен 2011 в 15:27

Бывает.

wRAR 9 сен 2011 в 08:41

Поставьте.

EvilBlueBeaver 5 сен 2011 в 23:09

лютый бешеный ппц

EvilBlueBeaver 5 сен 2011 в 23:15

Автор видимо не знает про то, что у хабра есть rss, и что наверняка существует апплет для гнома для высвечивания RSS. Да даже если апплет не существует, то парсить сайт при существующем RSS это жесть. А если в хабре шаблон поменяют — все отвалится?

antivir 5 сен 2011 в 23:22

Мало того, в RSS показываются топики с замочком, с wget-ом он их не увидит.

alexoy 6 сен 2011 в 01:13

#!/usr/bin/python
#-*- coding:utf-8 -*-

import feedparser 
import os
import sys
import datetime

habr = "http://habrahabr.ru/rss"
rss = feedparser.parse(habr)

#print "title: " + rss.feed.title
#print "description: " + rss.feed.description + "\n"

for entry in rss.entries: 
	newstr = entry.title.split(" / ")
	print "Blog: \t" + newstr[0] + "\n" + "Topic: \t" + newstr[1]
	# convert the given time format to datetime
	posted_datetime = datetime.datetime(
		entry['updated_parsed'][0],
		entry['updated_parsed'][1],
		entry['updated_parsed'][2],
		entry['updated_parsed'][3],
		entry['updated_parsed'][4],
		entry['updated_parsed'][5]
        )
	posted = posted_datetime.strftime("%d.%m.%Y %H:%M")
	print "Date: \t" + posted + "\n"

… так лучше? Осн. часть

Amka 6 сен 2011 в 01:15

Вы растёте прямо на глазах

habracut 6 сен 2011 в 01:32


...
posted = datetime.datetime(*entry['updated_parsed'][:6]).strftime("%d.%m.%Y %H:%M")
...

wRAR 6 сен 2011 в 02:14

posted = time.strftime("%d.%m.%Y %H:%M", entry['updated_parsed'])

Mazdader 6 сен 2011 в 09:03

Может, я чего-то не понимаю, но вроде как в RSS ленту попадают не все топики, а только те, которые похожи на отложенное в избранное. Поэтому приходится часто заходить на Хабр и смотреть, что пропустил. Может, полная лента все-таки есть — ткните, пожалуйста, ссылкой.

Mazdader 6 сен 2011 в 10:18

Прошу прощения — нашел по первой же ссылке в гугле, да и догадаться можно было. Только все-таки жаль, что на главной странице ссылки на ленту нету.

Lure_of_Chaos 6 сен 2011 в 12:21

Ваш код оценили на говнокод.ру :)

wRAR 6 сен 2011 в 12:45

Там есть замечательное «понимаешь назначение каждой буквы и почему решение именно такое».
Требую от автора пояснений по каждому решению в исхоодном листинге.

НЛО прилетело и опубликовало эту надпись здесь

itforge 6 сен 2011 в 14:18

Ну вот, дождались популяризации python. Теперь наслаждайтесь :)

wRAR 6 сен 2011 в 14:26

Увы, увы.

itforge 6 сен 2011 в 14:36

from feedparser import parse
import shelve
import os

db = shelve.open(os.path.expanduser('~/.habra-notifier.cache'), 'c')
for entry in parse('http://habrahabr.ru/rss').entries:
    link = entry.link.encode('utf-8')
    if not link in db:
        db[link] = 1
        os.system('notify-send "%s"' % entry.title.encode('utf-8'))

egyptian 7 сен 2011 в 07:54

И db.close() в конце.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Оповещение появления нового топика на Хабрахабре с помощью Python

Комментарии 73

Публикации

Истории