Pull to refresh

Comments 32

Оооо! Спасибки! А есть тоже самое но с конвертацией HTML в TXT?
UFO just landed and posted this here
можно сделать подручными средствами намного качественней (в *nix'ах):

wkhtmltopdf some.html some.pdf
pdftotext -layout some.pdf some.txt

вот и все.
это индокод/дебилизм/решение через ж… пу/. Неужели самому не видно?
вы знаете другое решение с отработкой яваскрипта? вы хоть топик прочитайте для начала!
wkhtmltopdf рендерит страницу (с отработкой яваскриптов, css, dom, html, xhtml и т.д.). ваша библиотека CkHtmlToText так умеет?
не понял, а может и нет там такого:
как увеличить качество сохраняемого PDF (-d 300 видимо не то);
как оставить ссылки активными в сохраненном PDF;
У меня есть огромное желание выяснить то же самое относительно ссылок.
При наличии свободного времени пороюсь в исходниках.
Может не много не по теме, но как известно, сейчас сессия… уж очень хочется кинуть на телефон пару шпор. Но мой древний SE G502 поддерживает только txt и htm. А у меня все файлы в PDF/DOC(X). Нету online сервиса, который переделал бы PDF/DOC в JPG? А то по одной странице, через Photoshop… не по инженерски.
О, спасибо. Хотя я уже начал FileZill'ой конвертировать. Интересно, что ни этот сервис, ни FileZIlla не хотят конвертировать файлы, где в названии есть латышские буквы.

Ну всё, осталось завтра только не подкачать: i47.tinypic.com/dmqnhs.jpg :)
Эмм… Насчет сервиса не скажу, но можно поступить хитрым образом через консоль, используя ImageMagick (convert).
Допустим, у вас PDF лежат в определенной директории, тогда можно применить нечто вроде:
for file in `ls *.pdf`
do
convert -density 150 $file `echo $file | sed 's/\.pdf$/\.jpg/'`
done

Как-то так. При желании, можно поиграть с опциями convert'a.
convert -density 150 $file `echo $file | sed 's/\.pdf$/\.jpg/'`


а можно проще:
pdf2jpg $file
Convert никуда не годится, он не сглаживает шрифты (а увеличение разрешения приводит к сильным расходам памяти и низкой скорости). Я пробовал им конвертировать — пиксельные буквы —  это ужасно.

При том, что например программа Sumatra рендерит сглаженную картинку — значит есть OpenSource библиотеки, умеюшие это.
Вы ещё не намекнули авторам?
Нет, ведь у меня теперь нет необходимости преобразовывать pdf в картинки :) А сил на составление подробного описания моих бед и споры в комментах на английском  —нет. Но других хабрапользователей хочу просто предостеречь, что фигня на выходе получается.
Хорошо если бы он работал с локальными файлами и как фильтр (что-то вроде
zcat file.fb2.zip | xsltproc ~/fb2html.xsl — | wkhtmltopdf — habrahabr.pdf -O Landscape -s A4)
Хочется сказать спасибо разработчикам за бинарные пакеты для OSX.
p.s. при работе с тем же хабром, почему-то забирает не все картинки (в блоке Компании отсутствует 80% иконок)
www.princexml.com/overview
Принц мне больше нравится. Проблем не замечал. Очень много функций по работе с css, html. Есть много интерфейсов для языков программирования.
Подскажите — а как он (webkit) hекламу режет? Adblock прикрутить можно?
А еще плюс Вам за то в PDF, а то mht все браузеры сохраняют и открывают по-разному, пытаясь подгрузить те элементы, которые браузер не упаковал в mht, безжалостно паля меня на корпоративном dns-сервере…
Ох пеар-пеар :)
Я уже писал про эту мега штуку. Там же есть небольшой простой класс для Zend Framework что бы с ним работать.

habrahabr.ru/blogs/development/30018/

Ооопс… Простите, я не просмотрел по каким-то причинам Ваш топик после поиска по Хабру :(
А про «пеар»: я не имею отношения к разработчикам данного продукта. :)
Таничо :)
Пеар — это я про себя. В смысле: «Оо! Шанс пропеарить свою статью еще разок» :)

Я тут подумал ведь. Если эта штука может отрабатывать джаваскрипты в страницах, то очень многие защиты от ботов можно таким образом обойти.

Не говорю уже о том, что мне не терпится посмотреть, как же они это сделали.

зы Пошёл переписывать двиг для голосований
Кстати.

«wkhtmltopdf 0.9.0 released. Adding support for cookies and POST requests.»

Люди всё ещё не знают, что же такое wget/curl. Печаль.
ну ониж QT юзают и соответственно используют ее средства для этих целей
Поделитесь секретом — как curl в mht или pdf сохранить, чтоб потом в поезде почитать?
Решил использовать wkhtmltopdf для создания pdf-ок для последующего чтения их на КПК.
Команда wkhtmltopdf habrahabr.ru habrahabr.pdf -O Portrait -s A6
Получился мелковатый шрифт правда.

Sign up to leave a comment.

Articles