Comments 21
Ведомости публикуют на сайте свежий номер в fb2. А можно Вам заказать законченный скрипт, который будет скачивать номер, конвертировать его в mobi и отправлять на kindle-ящик?
А что избавляет нас от письма без аттача, если новый выпуск не найден?
Вопрос хороший. Сперва сам запутался. Но на самом деле мы получим еще раз письмо с тем же выпуском. Правда, на деле эта функция используется не так часто, т.к. у меня скрипт запускается по cron'у ровно так, как выпускается газета. Подводят только праздники. Но к Новому Году я надеюсь внести необходимые изменения.
А чем вам мешает письмо без аттача? Оно фактически является срочным сообщением о проблеме.
Прочитал:
> парсинг web-страницы с помощью простого регулярного выражения
и сразу вспомнился замечательный ответ со stackoverflow.
А вообще, чем pdf лучше rss-рассылки, которая есть и на Спорт-Экспрессе в том числе? Тем более, что для rss есть хорошие решения.
> парсинг web-страницы с помощью простого регулярного выражения
и сразу вспомнился замечательный ответ со stackoverflow.
А вообще, чем pdf лучше rss-рассылки, которая есть и на Спорт-Экспрессе в том числе? Тем более, что для rss есть хорошие решения.
lxml рулит для парсинга web-страниц
Rss-рассылка неполная. Т.е. там текст новостей неполный. И там бывает «мусор». В газете же материал отобран редактором, как наиболее перспективный/интересный. Для себя я сделал выбор в пользу pdf.
Спасибо за ссылку. Но у меня немного другая ситуация, чем у топик-стартера по ссылке.
Спасибо за ссылку. Но у меня немного другая ситуация, чем у топик-стартера по ссылке.
Откройте для себя wwwsearch.sourceforge.net/mechanize/
> r'(?Phttp:\/\/archive\.sport\-express\.ru\/pdf\/(?P[0-9]+\.zip))
Знаки "/" и "-" можно не экранировать.
Знаки "/" и "-" можно не экранировать.
Вместо
можно использовать docs.python.org/library/urllib.html#urllib.urlretrieve
Если бы использовали
Еще момент:
проще
with open(fullname, 'w') as fd:
content = urllib2.urlopen(link_on_file).read() # скачиваем файл
fd.write(content)
можно использовать docs.python.org/library/urllib.html#urllib.urlretrieve
Если бы использовали
os.path
, то можно было бы сделать скрипт кроссплатформенным…Еще момент:
glob.glob(directory_to_extract+'/*.*')
проще
os.listdir(directory_to_extract)
> (?P ) — так на Python'e задается группа в регулярке.
Так задается _именованная_ группа (см. PCRE 7.0). Не именованная группа затается просто при помощи скобок.
Так задается _именованная_ группа (см. PCRE 7.0). Не именованная группа затается просто при помощи скобок.
Вы абсолютно правы. Исправил. Тем более, что в примере используется именно именованная группа.
Эм, ну я хотел еще акцентировать внимание на том, что это фича именно PCRE (версию тут можно правда опустить), а не Python'а :) У вас получается, что это чисто питоновское, но на самом деле named group capturing можно использовать и в PHP и в Ruby и во многих других языках. В Питоне просто многие с этого начитают так как обычно сразу знакомятся с Django и его роутингом.
хочу сделать то же самое для the economist
Sign up to leave a comment.
Доставка свежей прессы с помощью Python прямо в почтовый ящик