Jimilian 5 сен 2012 в 15:13

Доставка свежей прессы с помощью Python прямо в почтовый ящик

4 мин

17K

Python*

Туториал

Из песочницы

+22

Комментарии 21

igamity 5 сен 2012 в 18:01

Ведомости публикуют на сайте свежий номер в fb2. А можно Вам заказать законченный скрипт, который будет скачивать номер, конвертировать его в mobi и отправлять на kindle-ящик?

Jimilian 5 сен 2012 в 18:27

Ответил Вам в личку.

puffofsmoke 5 сен 2012 в 18:37

А что избавляет нас от письма без аттача, если новый выпуск не найден?

Jimilian 5 сен 2012 в 18:52

Вопрос хороший. Сперва сам запутался. Но на самом деле мы получим еще раз письмо с тем же выпуском. Правда, на деле эта функция используется не так часто, т.к. у меня скрипт запускается по cron'у ровно так, как выпускается газета. Подводят только праздники. Но к Новому Году я надеюсь внести необходимые изменения.

Jimilian 5 сен 2012 в 18:58

Раскрою мысль чуть подробней. Когда нет свежего выпуска, на сайте доступен последний доступный выпуск. Т.е. ситуация, что нет архива — это реально проблема.

komarov 5 сен 2012 в 18:49

А чем вам мешает письмо без аттача? Оно фактически является срочным сообщением о проблеме.

madcat1991 5 сен 2012 в 18:56

Прочитал:

> парсинг web-страницы с помощью простого регулярного выражения

и сразу вспомнился замечательный ответ со stackoverflow.

А вообще, чем pdf лучше rss-рассылки, которая есть и на Спорт-Экспрессе в том числе? Тем более, что для rss есть хорошие решения.

puffofsmoke 5 сен 2012 в 19:00

lxml рулит для парсинга web-страниц

Jimilian 5 сен 2012 в 19:05

Rss-рассылка неполная. Т.е. там текст новостей неполный. И там бывает «мусор». В газете же материал отобран редактором, как наиболее перспективный/интересный. Для себя я сделал выбор в пользу pdf.

Спасибо за ссылку. Но у меня немного другая ситуация, чем у топик-стартера по ссылке.

and7ey 5 сен 2012 в 19:11

А тут полной rss-ленты не находится?

Jimilian 5 сен 2012 в 19:17

Вполне может быть находится. Но тогда бы пришлось скачивать и отправлять на Kindle. У меня Kindle без 3G.

equand 5 сен 2012 в 19:24

Откройте для себя wwwsearch.sourceforge.net/mechanize/

itforge 5 сен 2012 в 20:05

> r'(?Phttp:\/\/archive\.sport\-express\.ru\/pdf\/(?P[0-9]+\.zip))

Знаки "/" и "-" можно не экранировать.

seriyPS 6 сен 2012 в 00:32

Вместо

with open(fullname, 'w') as fd:                                
    content = urllib2.urlopen(link_on_file).read()  # скачиваем файл
    fd.write(content)

можно использовать docs.python.org/library/urllib.html#urllib.urlretrieve

Если бы использовали os.path, то можно было бы сделать скрипт кроссплатформенным…

Еще момент:

glob.glob(directory_to_extract+'/*.*')

проще os.listdir(directory_to_extract)

Jimilian 6 сен 2012 в 04:21

Спасибо за замечания. Учту,

So1 6 сен 2012 в 07:21

> (?P ) — так на Python'e задается группа в регулярке.

Так задается _именованная_ группа (см. PCRE 7.0). Не именованная группа затается просто при помощи скобок.

Jimilian 6 сен 2012 в 08:11

Вы абсолютно правы. Исправил. Тем более, что в примере используется именно именованная группа.

So1 6 сен 2012 в 08:58

Эм, ну я хотел еще акцентировать внимание на том, что это фича именно PCRE (версию тут можно правда опустить), а не Python'а :) У вас получается, что это чисто питоновское, но на самом деле named group capturing можно использовать и в PHP и в Ruby и во многих других языках. В Питоне просто многие с этого начитают так как обычно сразу знакомятся с Django и его роутингом.

Azy 6 сен 2012 в 08:17

Открыл для себя Flipboard — самый удобный способ читать новости с телефона.

in_finiti 9 сен 2012 в 16:27

хочу сделать то же самое для the economist

Jimilian 10 сен 2012 в 04:09

если у Вас возникнут с этим сложности, обращайтесь — постараюсь помочь.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий