icoz Jan 12 2014 at 12:27

Экспорт Избранного на Хабре в PDF

3 min

36K

Python * PDF

+85

Comments 93

keccak Jan 12 2014 at 12:51

Я как раз уже несколько дней пытаюсь придумать, как бы реализовать удобный экспорт самых толковых howto на читалку, и тут такое. Спасибо, сейчас протестирую!

icoz Jan 12 2014 at 12:56

Хм. Думаю, без особых проблем можно сделать выгрузку в html. А html уже легко конвертится во что угодно…

vrtx Jan 12 2014 at 13:04

Тем более, что скрипт изначально html и генерирует :)

icoz Jan 12 2014 at 13:05

А то! ;)

icoz Jan 12 2014 at 16:05

Реализовано.

vrtx Jan 12 2014 at 13:03

Спасибо за доработки, удобная штука получилась!

4ex0V Jan 12 2014 at 14:24

Прошу прощения за бестолковый вопрос, но работает ли эта штука под Windows?

icoz Jan 12 2014 at 14:53

Не знаю. Не проверял.

icoz Jan 12 2014 at 15:44

Если все нужные библиотечки будут стоять, то должно работать.
Единственное, что меня смущает, так это symlink'и в Windows. Так что с параметром --no-symlinks должно работать.

gwer Jan 13 2014 at 01:53

Еще в Висте появилась поддержка симлинков. Так что на современных версиях ОС даже без этого параметра должно заработать.

x256 Jan 12 2014 at 14:54

4ex0V Jan 12 2014 at 15:32

Занятно. Ссылку бы тоже сразу лучше вставили. :)

x256 Jan 12 2014 at 16:09

Да, точно.

AbnormalHead Jan 12 2014 at 17:21

Работает.

Качаем скрипт, ставим необходимые библиотеки. Для версии python 2.7 помимо тех, которые указаны в статье, потребовалось поставить еще библиотеки six, lxml.

FINTER Jan 12 2014 at 14:26

Кстати, раз уж утилитка консольная и на питоне — попробуйте вот такую вот либу:
docopt.org/
github.com/docopt/docopt

icoz Jan 12 2014 at 15:37

А чем вам argparse не нравится?
Я же не сам аргументы разбираю, а argparse использую. В чем преимущество docopt?

icoz Jan 12 2014 at 15:41

Почитал доку. Неее… Там надо самому весь usage расписать, а docopt на базе этого сам разберет параметры.
Я программист — много писать мне лень. Я лучше 10 строк для argparse напишу… Плюс к тому, проще задать ограничения на вводимые значения.

FINTER Jan 12 2014 at 17:33

Блин, то ли я плохо объясняю, то ли вы не ту доку читаете…
Usage всегда будет короче, чем код argpasre, который его стоит.
Вот в этом месте видео автор либы сравнивает код консольного чекера pep8 с argparse и с docopt:
www.youtube.com/watch?v=pXhcPJK5cMc#t=418

Если и после этого не убедил, то видимо у нас разные вкусы.

icoz Jan 12 2014 at 17:58

Посмотрел пунктиром.
Да, библиотечка стоящая. Но каждой библиотеке свои задачи.
В примере разбирали очень крутую конфигурацию опций. Да, в этом случае docopt полезнее.

Но не забывайте, что для изучения чего-то нового необходимо время.
Когда случай сложный, то быстрее будет изучить docopt и использовать его, а иначе зачем заморачиваться?

А вот в чем вы меня действительно не убедили, так это в том, зачем переделывать утилиту на использование новой библиотеки?

PS. видюшка интересная, закинул ее себе в посмотреть попозже.

FINTER Jan 12 2014 at 18:08

Ну я же вас не принуждаю код писать =)
Это скорее было в академических целях, если вам интересно.

Pastafarianist Jan 12 2014 at 15:21

Я однажды делал экспорт избранного в FB2. Правда, потом на сайте что-то сделали с разметкой, и он перестал работать. Но желающие могут форкнуть и допилить.

icoz Jan 12 2014 at 15:42

Гляну. Может чего и оттуда полезного перетяну. :)

ploop Jan 12 2014 at 15:30

Работает, спасибо!
Правда несколько модулей пришлось поставить.

ploop Jan 13 2014 at 04:46

Не понял, что я такого сказал? Если про модули, то кроме тех, что упомянуты.

silvansky Jan 14 2014 at 11:34

Мне пришлось кроме указанных установить лишь lxml. Кстати, надо бы в readme добавить список зависимостей.

ploop Jan 14 2014 at 15:56

2.7?
lxml точно ставил, и ещё что-то… забыл уже :)

icoz Jan 14 2014 at 19:06

cat .bash_history поможет

ploop Jan 14 2014 at 19:14

Разумеется, когда дома :)
Глянул — у меня вроде всё. То есть lxml + то, что у вас в статье уже перечислено.

silvansky Jan 15 2014 at 05:13

Да, у меня так же. Тоже для 2.7

icoz Jan 14 2014 at 19:05

Список неточен только из-за того, что у каждого на системе уже что-то может стоять.
Да и если составлять такой список, то надо отследить все зависимости всех используемых библиотек.
Скучно и бессмысленно.
Ну и с другой стороны, никто не говорил, что у утилиты отсутствует порог вхождения.

ploop Jan 14 2014 at 19:16

Ну и с другой стороны, никто не говорил, что у утилиты отсутствует порог вхождения.

Разумеется, он же на каждый чих пишет, что ему не нравится.

silvansky Jan 15 2014 at 05:13

Как минимум, я бы добавил lxml, ибо уже минимум у двоих это потребовалось. ;)

UFO landed and left these words here

icoz Jan 12 2014 at 16:56

Скорее всего chrome будет сохранять статью так, как вы ее видите на экране, с менюшками и прочей рекламой.
Скрипт же выдирает исключительно смысловую нагрузку.

UFO landed and left these words here

minamoto Jan 13 2014 at 12:39

Для смысловой нагрузки можно использовать мобильную версию:

m.habrahabr.ru/post/208802

icoz Jan 13 2014 at 18:34

Именно так и реализовано в скрипте.

Raziel Jan 12 2014 at 17:01

Несколько замечаний:
1. У меня в избранном 17 страниц, скрипт пытается обработать 25.
2. Не все посты корректно сохраняются. У меня это 136056, 147996,163097,165527,172009,187210,206604. Создается pdf с нулевым размером

icoz Jan 12 2014 at 17:15

По первому пункту:
На каждой странице по 10 постов, у вас 246 постов, логично, что скрипт пытается дернуть 25 страниц.
Внимание, вопрос: а как так 17 страниц получается?

По второму:
Запустите еще раз. Бывает что какие-то таймауты выходят и скрипт не получает данных.
Вот если проблема повторяется раз за разом именно на этих постах, то тогда есть повод подумать…

icoz Jan 12 2014 at 17:41

Проверил, по второму пункту у меня те же посты нулевыми получились.
Буду думать что не так…

Raziel Jan 12 2014 at 17:55

На счет постов, видно у хабра с этим проблема, вы можете сами посмотреть у меня всего 17 страниц в избранном. Скрипт сохраняет 170 файлов.
По поводу нулевых файлов, я запускал несколько раз. Ошибки там разные, вам лучше самому посмотреть, я python-е ничего не понимаю.

icoz Jan 12 2014 at 18:05

Про нулевые файлы могу сказать пока только одно:
в виде HTML они загружаются корректно.
Может быть какой-нибудь косяк внутри библиотеки рендеринга pdf? Она ведь сама, например, картинки вытаскивает.

k2m30 Jan 12 2014 at 18:13

НАсколько сложно будет сделать .mobi => kindle?

JagaJaga Jan 12 2014 at 18:21

У амазона есть плагин для киндла. Отлично все делает. Другое дело, что его надо использовать самому на каждой странице. chrome.google.com/webstore/detail/cgdjpilhipecahhcilnafpblkieebhea

k2m30 Jan 12 2014 at 18:56

спасибо, уже нашел отличную вещь от вендора
Send to Kindle for Mac
Есть такой же для PC

TomasHuk Jan 13 2014 at 08:43

Можно ли как-то переделать скрипт для Python 3.3? Может кто подскажет?

icoz Jan 13 2014 at 18:48

Думал над этим.
Даже попробовал. Но у меня всё валится на необходимости порта на python3 пакета reportlab.
Нашел на stackoverflow, говорят есть порт.
Но это экспериментальное всё и не мейнстрим, то есть ее нет даже в PyPI, только для python2.

К чему это я…
Ах да! Даже если с такими костылями и сделать порт, то поставить его смогут немногие.
Либо переписывать скрипт с использованием других библиотек.

TomasHuk Jan 14 2014 at 06:36

Ясно, спасибо.

minamoto Jan 13 2014 at 09:26

А можно сделать опцию на выгрузку одной конкретной статьи? Или списка статей из файла, а не из избранного?

ploop Jan 13 2014 at 10:50

Ну вот как раз одну статью удобнее экспортировать средствами браузера, как выше сказали.

minamoto Jan 13 2014 at 12:38

Да, согласен. Тогда вопрос снимается )

icoz Jan 13 2014 at 18:51

Да, можно.
Можно добавить новый параметр --get-one.
Можно и из списка…
Актуально ещё?

minamoto Jan 14 2014 at 05:15

Думаю, список актуален — можно, например, взять какую-нибудь сборную статью с выборкой лучшего по теме, скопировать оттуда все ссылки и сохранить в файл, а из него уже загрузить все статьи для чтения.

ErhoSen Jan 13 2014 at 09:37

Не так давно тоже писал свой велосипед, но для Kindle. Скрипт умеет:
1. Вытягивать лучшие статейки по хабам. (используя бд из моего предыдущего поста)
2. Парсить избранное
3. Просто стянуть рандомную статью.

Для корректной работы, нужно скачать kindlen и указать у нему путь в habr_to_kindle.py.

В итоге

комментарии

icoz Jan 13 2014 at 18:53

Почитал. Хороший код. Понятный.
Прям приятно почитать перед сном… :)

silvansky Jan 14 2014 at 11:38

Спасибо за скрипт!

Все предыдущие варианты что я пробовал быстро загибались под натиском моего избранного, а Ваш уже 9/99 страниц обработал. Пока держится молодцом! =)

silvansky Jan 14 2014 at 11:53

Увы, на 137 статье завис скрипт. habrahabr.ru/post/162747/ — на этом топике.

silvansky Jan 14 2014 at 12:24

После 10 минут тупняка опять пошло — уже 42 страницу парсит.

icoz Jan 14 2014 at 12:32

О_о
Вы меня поражаете.
Надеюсь хоть по разным файлам?
И тогда уж в формате html…

silvansky Jan 14 2014 at 12:39

Из параметров я указал только свой ник — так что по разным файлам и в pdf =)

html на айпаде не очень удобно читать, так что закину pdf-ки в iBooks. Жаль только, что метаданные не заполняются у pdf:

Реквестирую вставку в метаданные ника автора, заголовка статьи и тегов (в поле «Тема»).

silvansky Jan 14 2014 at 13:32

stackoverflow.com/questions/2574676/change-metadata-of-pdf-file-with-pypdf
Вот, можно так сделать добавление метаданных. Иначе при импорте всех 900 файлов в ibooks будут проблемы — как выбрать нужную статью.

icoz Jan 15 2014 at 19:52

Идея хорошая. Возьму на заметку. Подумаю.
Возможно есть решение проще.

silvansky Jan 14 2014 at 13:32

Фух, распарсил 900+ статей. Всё таки справился, спасибо автору! Первый парсер, который сделал свою работу.
И всего лишь один нулевой файл на выходе.

icoz Jan 15 2014 at 19:55

Вы меня поражаете…

silvansky Jan 16 2014 at 04:59

И не удивительно, что все предыдущие парсеры не справлялись — памяти им не хватало. =)

ozonar Jan 17 2014 at 19:24

Добавил эту статью в избранное, и забыл про неё. Всё правильно сделал?

icoz Jan 17 2014 at 19:54

Да, если вы не забыли сохранить скрипт.

RAZVOR Jan 19 2014 at 16:06

Сделал версию(анлог) на QML/C++ с GUI, думаю кому-нибудь понадобится. Пока умеет только: сам экспорт в отдельные файлы, экспорт из отдельных тегов и убирать ссылка из поста. Скоро добавлю остальной функционал, так что не судите строго. На Github

icoz Jan 24 2014 at 13:43

Честно говоря, для GUI я бы добавил побольше.
Да и вообще сделал бы в виде Мастера.
Шаг 1. ввести ник, нажать далее.
Шаг 2. собрать инфу с его избранного и вывести в древовидной(хабы и посты) форме или списком все статьи. Ввести фильтры: по времени, по хабу, по автору.
Шаг 3. поотмечать галочками что сохранить, а что нет. Нужны комментарии или нет.
Шаг 4. вытянуть и сохранить. Формат на выбор: html, pdf, может конвертация в какой-нибудь fb2.

Может и сам когда-нибудь этим займусь, когда время будет. Или вы попробуйте, если время есть.

4mz Aug 21 2014 at 17:04

Спасибо! А вы не могли-бы скомпилировать и под Windows для тех, кому это сделать трудновато по причине незнания, даже в теории, как это делать? :) Буду крайне благодарен!

icoz Aug 22 2014 at 13:33

Дык такое я и не начинал еще. Идей проектов много, а времени крайне мало. :(

4mz Aug 22 2014 at 13:40

Упс, кажется промахнулся в ответе, мой комментарий был адресован уважаемому RAZVOR, т.к. по его ссылке на Github есть такие строки: «Now only for OSX. You can compile it for Linux or Windows from source.». Прошу прощения что ввел в заблуждение )

sonic Jan 22 2014 at 03:33

Можно пример даты для скрипта?

icoz Jan 24 2014 at 13:36

./fav2pdf.py --from-date "3 января 2014" user

BuranLcme Mar 13 2014 at 17:58

С reportlab версии 3.0 не работает, выдает ошибку. Пришлось специально ставить 2.7

Stvad Aug 4 2014 at 09:40

Насколько я понял после обновления дизайна — не работает?
У меня скрипт теперь проходит по всем статьям и говорит что они — «is locked».

4mz Aug 21 2014 at 17:00

Аналогично :( Большая просьба к автору, поправьте, если есть такая возможность.

icoz Aug 22 2014 at 12:53

Я смотрел, не так все просто.
У меня сейчас в разработке новый парсер страниц. Своеобразный фреймворк для парсинга хабра. Пока сырой и не все еще реализовано. Поэтому пока класть в опенсурс стыдно.
Если есть желающие попилить — прошу в личку.

icoz Aug 22 2014 at 12:56

Отмечу, что я в описанной программе взял чужой парсер и сделал к нему консольную обертку.
А сейчас пишу свой парсер.

4mz Aug 22 2014 at 13:26

В таком случае, будем ждать с нетерпением :)

icoz Aug 27 2014 at 20:33

Парсер написан. Баги есть, но по ходу дела вылавливаются.
Но я столкнулся с другой проблемой — чем сохранять в третьем питоне в pdf?
Гугл сходу не помог… :(
Могу просто html сохранять — пойдет?

4mz Aug 28 2014 at 01:48

Это просто отличные новости! Жаль, у меня не хватает кармы для голосования :(

Меня бы устроило и в HTML. Но вот что выдал мне гугл, stackoverflow.com/questions/12021216/is-there-any-python-3-module-to-create-pdf-files вдруг вам это поможет, хотя я слегка далек от программирования вообще, и от Питона в частности (

icoz Aug 28 2014 at 10:44

Это я находил и читал. Некоторые решения там не кроссплатформенные. Некоторые уже померли…
Посмотрим внимательнее, конечно.

TomasHuk Aug 28 2014 at 10:03

html можно сохранить в pdf используя pyQt:

import sys
from PyQt4.QtCore import *
from PyQt4.QtGui import *
from PyQt4.QtWebKit import *
app = QApplication(sys.argv)
web = QWebView()
web.load(QUrl("http://habrahabr.ru/post/208802"))
#web.show() можно показать страницу
printer = QPrinter()
printer.setPageSize(QPrinter.A4)
printer.setOutputFormat(QPrinter.PdfFormat)
printer.setOutputFileName("file.pdf")
def convertIt():
    web.print_(printer)
    print("Pdf generated")
    QApplication.exit()
QObject.connect(web, SIGNAL("loadFinished(bool)"), convertIt)
sys.exit(app.exec_())

Отсюда. Не знаю, поможет вам или нет.

icoz Aug 28 2014 at 10:42

О! А это мысль! Что-то я про кутю забыл совсем…
Спасибо. Может и графический интерфейс нарисую тогда уж.

icoz Aug 28 2014 at 19:27

Нашел такую штуку!
Думаю, будем пользовать её. Простая и работает с python3.
Будет время — напишу небольшую статейку про неё.

UFO landed and left these words here

icoz Sep 25 2014 at 19:31

Да. Я взял чужой парсер и сделал к нему обертку. Ну и доработал маленько кое-где.

Сейчас я написал всё свое с нуля и на третьем питоне. Осталось немного.

4mz Sep 26 2014 at 03:33

Ждем-ждем :)

BuranLcme Dec 24 2014 at 20:28

Есть какие-нибудь новости по новому парсеру?

icoz Dec 26 2014 at 20:30

Почти.
Парсер есть и работает. Но есть проблема. Не могу толком сохранить в pdf, а для сохранения в html требуется перерабатывать всё содержимое страницы.
Могу выложить сам парсер, кто сможет доработать или хотя бы подсказать что делать — буду рад.

icoz Dec 27 2014 at 18:23

Приветствую всех.
Я опубликовал исходники парсера для Хабра.
github.com/icoz/habrapasre
Парсер работает вполне сносно.
Проблемы:
1) сохранение в pdf (то формат страницы такой, что часть текста обрезана, то картинок нет)
2) сохранение в html требует глубокого анализа текста, чтобы подменять ссылки на картинки, например…

Буду рад любой помощи.

icoz May 28 2016 at 13:41

Проведен ряд доработок. Скрипт работоспособен. Ограничена функциональность в части работы с комментариями.