Shai Dec 13 2011 at 09:40

Из html в pdf – легко! Обзор конвертеров

3 min

103K

Software

+61

Comments 24

pennanth Dec 13 2011 at 09:58

Хороший обзор, благодарю!

Часом, в процессе работы вам не приходилось конвертировать в PDF страницы с SVG-графикой? Интересно, как справляется с ней wkhtmltopdf.

Shai Dec 13 2011 at 10:14

К сожалению не приходилось.

artyomst Dec 13 2011 at 10:18

к счастью…

weralwolf Dec 13 2011 at 11:30

Справляется ок. единственный недочет — если в графике на странице есть прозачности (как я понял, этот баг не только к svg относится), на этой странице портятся шрифты в акробат ридере. В остальном же, график, нарисованный с помощью Raphaël никаких сюрпризов не подсунул.

pennanth Dec 13 2011 at 14:09

Спасибо! Запишем еще один плюс Raphael!

pixilang Dec 13 2011 at 10:51

а вот устроить конвертацию из pdf в html, если там есть таблицы ух как не просто

karazyabko Dec 13 2011 at 11:41

Пользовался на нескольких проектах DomPDF, очень удобная штука, странно, что автор не включил ее в обзор

Lockal Dec 13 2011 at 12:41

Перезагрузите картинки на habrastorage.org/, будут отображаться у всех, заодно от удаления на внешнем сайте защитите.

AlexanderPHP Dec 13 2011 at 12:54

Спасибо, полезный обзор!

dezconnect Dec 13 2011 at 12:56

Хм… странно почему одни сайты wkhtmltopdf корректно генерит, а другие криво? с учетом того что верстка выглядит везде одинаково в браузерах… в некоторых случаях просто некоторые дивы не воспринимает

bezumkin Dec 13 2011 at 15:16

Некоторые сайты проверяют, кто запрашивает страницу и изменяют ее под клиента. То есть, смотрять User Agent, параметры броузера (размер экрана и тд).

Есть сайты, которые пытаются сохранить куку, и если она не принимается — выводят какой-нить рекламный блок (например, fishki.net)

Бывают проблемы, если на сайте используется java приложение, или еще какая сложная штука. Flash вообще больное место.

Но в целом, лично я wkhtmltopdf очень доволен, 95% страниц обрабатываются без проблем.

bezumkin Dec 13 2011 at 15:32

Если есть большой интерес, могу вывести где то около 500-600 скриншотов сайтов, со ссылками.

Посравниваете сами =)

Nitrotoluol Dec 13 2011 at 13:37

а где картинки?

imsamurai Dec 13 2011 at 13:42

Адблок их не признал)

helloworld0 Dec 13 2011 at 14:03

Использую php-класс mPDF как раз для подобной задачи. Не без напильника, но позволяет создать html-разметку для различного рода отчётов, бланков и т.д.

Поддерживает и html, и css. Ограниченно, но поддерживает.

dos Dec 13 2011 at 22:17

Его единственный минус — это требовательность к ресурсам, как следствие — время генерации. Мне приходится генерировать документы по 100+ страниц с различными таблицами и время генерации составляет около 1 минуты на документ.

yul Dec 13 2011 at 19:28

Я бы добавил ещё критериев:
— хедеры/футеры и номера страниц
— разделы с разными полями (не так, чтобы поля указаны в настройках на весь документ и всё тут)
— нестандартные шрифты с Unicode (часто бывает нужен фирменный шрифт)
— нормальная разбивка таблицы на несколько страниц, форматирование таблиц (рамки, цвета)
— нормальное позиционирование картинок (по скринам в статье видно, что тут не у всех гладко, а это может быть важно)

И может какой-то умеет экспортировать в RTF заодно?

dos Dec 13 2011 at 22:15

Всё вами перечисленное умеет делать MPDF

Murz Dec 13 2011 at 19:39

Тоже мучался с такой же проблемой, каждый с разнообразными косяками, поэтому приходилось выбирать из наименьшего зла ;) для себя остановился на mPDF — он по-моему единственный умеет нормально делить таблицы на несколько страниц, чтобы заголовок таблицы дублировался на каждой и ячейку посередине не разрывало.
Ещё можно просмотреть TCPDF, dompdf — тоже довольно неплохие, но под мои задачи меньше подошли.

А вот поддержку widows и orphans (висящие строки в начале и в конце абзаца) вообще ни нашёл кто умеет, поэтому получается очень часто что в начале страницы остаётся одна строка с парой слов из предыдущего абзаца ;( Как это побороть не знаю, если у кого есть идеи — сообщайте, буду премного благодарен!

Litiy Dec 14 2011 at 00:22

При отдаче генерируемого контента в PDF в рельсах использую prawn. Рекомендую, отличный инструмент!

Litiy Dec 14 2011 at 00:28

prawn.majesticseacreature.com/manual.pdf Извиняюсь, не привык к отрицательной карме.

mixrin Dec 14 2011 at 01:10

Где в обзоре DocRaptor?

docraptor.com/

pomkaster Dec 14 2011 at 19:39

Пользуюсь xml2pdf www.alt-soft.com/Products_html2pdf.aspx, требует только .Net framework (ну или Mono, тоже работает)

starosta Sep 24 2016 at 13:39

Мы использовали pdf4b.ru, в массе получили оптимальный результат, но это сервис с API, а не либа