Pull to refresh

Comments 21

Ведомости публикуют на сайте свежий номер в fb2. А можно Вам заказать законченный скрипт, который будет скачивать номер, конвертировать его в mobi и отправлять на kindle-ящик?
А что избавляет нас от письма без аттача, если новый выпуск не найден?
Вопрос хороший. Сперва сам запутался. Но на самом деле мы получим еще раз письмо с тем же выпуском. Правда, на деле эта функция используется не так часто, т.к. у меня скрипт запускается по cron'у ровно так, как выпускается газета. Подводят только праздники. Но к Новому Году я надеюсь внести необходимые изменения.
Раскрою мысль чуть подробней. Когда нет свежего выпуска, на сайте доступен последний доступный выпуск. Т.е. ситуация, что нет архива — это реально проблема.
А чем вам мешает письмо без аттача? Оно фактически является срочным сообщением о проблеме.
Прочитал:

> парсинг web-страницы с помощью простого регулярного выражения

и сразу вспомнился замечательный ответ со stackoverflow.

А вообще, чем pdf лучше rss-рассылки, которая есть и на Спорт-Экспрессе в том числе? Тем более, что для rss есть хорошие решения.
lxml рулит для парсинга web-страниц
Rss-рассылка неполная. Т.е. там текст новостей неполный. И там бывает «мусор». В газете же материал отобран редактором, как наиболее перспективный/интересный. Для себя я сделал выбор в пользу pdf.

Спасибо за ссылку. Но у меня немного другая ситуация, чем у топик-стартера по ссылке.
А тут полной rss-ленты не находится?
Вполне может быть находится. Но тогда бы пришлось скачивать и отправлять на Kindle. У меня Kindle без 3G.
> r'(?Phttp:\/\/archive\.sport\-express\.ru\/pdf\/(?P[0-9]+\.zip))

Знаки "/" и "-" можно не экранировать.
Вместо
with open(fullname, 'w') as fd:                                
    content = urllib2.urlopen(link_on_file).read()  # скачиваем файл
    fd.write(content)                                                    

можно использовать docs.python.org/library/urllib.html#urllib.urlretrieve

Если бы использовали os.path, то можно было бы сделать скрипт кроссплатформенным…

Еще момент:
glob.glob(directory_to_extract+'/*.*')

проще os.listdir(directory_to_extract)
Спасибо за замечания. Учту,
> (?P ) — так на Python'e задается группа в регулярке.

Так задается _именованная_ группа (см. PCRE 7.0). Не именованная группа затается просто при помощи скобок.
Вы абсолютно правы. Исправил. Тем более, что в примере используется именно именованная группа.
Эм, ну я хотел еще акцентировать внимание на том, что это фича именно PCRE (версию тут можно правда опустить), а не Python'а :) У вас получается, что это чисто питоновское, но на самом деле named group capturing можно использовать и в PHP и в Ruby и во многих других языках. В Питоне просто многие с этого начитают так как обычно сразу знакомятся с Django и его роутингом.
Открыл для себя Flipboard — самый удобный способ читать новости с телефона.
хочу сделать то же самое для the economist
если у Вас возникнут с этим сложности, обращайтесь — постараюсь помочь.
Sign up to leave a comment.

Articles

Change theme settings