Обновить
1.6

PDF

Межплатформенный формат электронных документов

Сначала показывать
Порог рейтинга
Уровень сложности

IText: вытаскиваем текст из PDF

Время на прочтение5 мин
Количество просмотров62K
image

Доброе время суток, хабровчане!

Недавно столкнулся с задачей: научиться вытаскивать текст из PDF запоминая его позицию на странице. И, конечно же, в несложной поначалу задаче вылезли подводные камни. Как же в итоге получилось это решить? Ответ под катом.
Читать дальше →

Как web-страницу легко превратить в PDF?

Время на прочтение6 мин
Количество просмотров36K

Для меня было очень неожиданно то, что в хабе по Java практически нет информации по работе с PDF документами, поэтому я, из личного опыта, хочу на примере сервлета показать как легко можно любую web-страницу превратить в PDF документ.
Читать дальше →

Экспорт Избранного на Хабре в PDF

Время на прочтение3 мин
Количество просмотров36K
Доброго времени суток, хабровчане!


Думаю многих из вас когда-либо посещала мысль «вот бы сохранить статьи с Хабра».
Такая же мысль посетила и меня два дня назад. Сохранить захотел не просто каждую статью, а только те, что в избранном, да не поштучно, а сразу всё скопом.
Первая мысль — надо написать скрипт, который всё это вытянет. Python я уже подучил, но вот с генерацией PDF на нем сталкиваться ещё не приходилось.

Закручинился я было… Но OpenSource и Хабр спасли меня!
Краткая суть статьи для тех, кому не интересно много читать
В статье описан доработанный скрипт на Python fav2pdf.
Изначальный автор скрипта vrtx, за что ему большое спасибо.
«Usage — лучше тысячи слов!»
usage: fav2pdf.py [-h] [-d OUTPUT_DIR] [--from-date FROM_DATE]
                  [--to-date TO_DATE] [--all-in-one]
                  [--only-hubs [ONLY_HUBS [ONLY_HUBS ...]]] [--no-comments]
                  [--no-symlinks]
                  user

Tool for save favorite posts from habrahabr.ru in pdf's or html's

positional arguments:
  user                  habrahabr.ru username

optional arguments:
  -h, --help            show this help message and exit
  -d OUTPUT_DIR, --output-dir OUTPUT_DIR
                        Directory for output
  --from-date FROM_DATE
                        From date
  --to-date TO_DATE     To date
  --all-in-one          Save all posts in one PDF-file
  --only-hubs [ONLY_HUBS [ONLY_HUBS ...]]
                        Save only posts from hubs. For multiple: "--only-hubs
                        Hub1 Hub2 --"
  --no-comments         Dont save comments from posts
  --no-symlinks         Dont create symlinks to posts
  --create-html         Create html's instead of pdf's
  --create-url-list     Just save user.txt with all links


И как же они меня спасли?

WPF > PDF через PDFSharp.Xps: чиним вывод гиперссылок

Время на прочтение5 мин
Количество просмотров5.1K

Короткий пост в продолжение к моему предыдущему посту про генерацию PDF из WPF-приложения с помощью PDFSharp. Как описано в той статье, генерация производится с использованием FlowDocument в качестве посредника. Во FlowDocument мы можем использовать Hyperlink для вывода разного вида гиперссылок, но оказалось, что использованная мной версия PDFSharp.Xps конвертера тупо игнорирует прикрепленные к элементам XpsElement аттрибуты FixedPage_NavigateUri.
Я потратил какое-то времени на то, чтобы разобраться с форматом вывода PDF 1.4, но пока не смог понять как правильно починить печать в PdfContentWriter проекта PDFSharp.Xps.
Под катом представлено более простое решение, а именно наложение гиперссылки на текст в виде Link Annotation. Также в конце статьи Вы найдете результат моих изысканий на тему «кошерного» решения проблемы, через внедрение в процесс вывода в PDF примитивов.
Читать дальше →

Генерация PDF из WPF-приложения «для всех, даром, и пусть никто не уйдет обиженный»

Время на прочтение7 мин
Количество просмотров25K
Пару недель назад на проекте появилась задача генерации PDF.
Разумеется, я, как разработчик WPF UI, сразу был против сурового подхода кодирования отрисовки всех примитивов PDF в коде C#.
И заказчик был непротив покупки некоего платного конвертера из HTML в PDF, например.
Вроде бы все просто — генерируем строку с HTML-разметкой, используя DotLiquid для шаблонизации, и конвертируем в PDF с помощью одного из множества платных конвертеров.
Единственная засада — плохая совместимость HTML со страничной структурой PDF-документа.
Только я начал закапываться в поисках решения этой проблемы, как один коллега поделился ссылкой на статью с альтернативным решением.
Из статьи я узнал, что есть возможность сгенерировать PDF из XPS-документа (этот формат поддерживается в WPF FlowDocument).
К тому же, для генерации использовалась бесплатная библиотека PDFSharp.

Исходники можете скачать с GitHub.

UPD: уже не первый раз наблюдаю как статью плюсуют (первые минусы были сразу после публикации и вряд ли относятся к основному контенту), при этом сливая карму. Мне интересна мотивация, обратная связь. Отпишитесь, кто чем недоволен / доволен, если не затруднит.
Пошаговые инструкции под катом

Java Stored Procedure в субд Oracle на примере формирования PDF-файла

Время на прочтение4 мин
Количество просмотров19K
Всем доброго времени суток!
Недавно имел опыт создания функций (хранимых процедур) на языке Java в СУБД Oracle (Java Stored Procedures). Постараюсь описать шаги по созданию таких функций, расмотрев пример работы с pdf-файлом.

Вот, что для этого потребуется:
  • СУБД Oracle (в моем случае версии 10)
  • библиотеки iText (версия 1.4.8)
  • Java-код, реализующий требуемые функции

Читать дальше →

Формирование документов на основе ODT шаблонов. ODT to PDF

Время на прочтение4 мин
Количество просмотров11K
Здравствуйте, уважаемы хабровчане!

Не так давно мне пришлось столкнуться с типичной задачей – формировать документы с пользовательскими данными на основе шаблонов ODT средствами PHP. Звучит весьма тривиально, но намучиться пришлось сильно. Дело в том, что ни одно из доступных средств, так или иначе, не подошло. Одни библиотеки формировали документ криво, другие не поддерживали русские шрифты, третьи – двигали картинки в стиле Harlem Shake. Вот и пришлось «велосипедить».

Итак, задача вкратце:

  1. Обработать ODT шаблон. Заменить placeholder’ы на пользовательские значения
  2. Конвертировать в pdf. Показать пользователю

Читать дальше →

Генерируем PDF из HTML-шаблона с условиями, при помощи wkhtmltopdf и RazorEngine

Время на прочтение2 мин
Количество просмотров21K
Не смотря на то, что пост предлагает заготовку, рецепт под ASP.NET, по аналогичным принципа вполне возможно реализовать решение и под другие платформы.

Задача:
  • генерировать DOC или PDF из шаблона файла, с подстановкой значений
  • нужна возможность включать минимальную логику в шаблон, что бы писать кода меньше, при необходимо править только внешние файлы
  • update. результат работы должен сохраняться в файл для возможности дальнейшего им манипулирования

Под катом — очень простое и короткое решение, примеры кода на C#. Не смотря на это, что пост предлагает заготовку-рецепт под ASP.NET, по аналогичным принципам вполне возможно реализовать решение и под другие платформы.
Читать дальше →

Конвертируем HTML в PDF при помощи Dompdf

Время на прочтение6 мин
Количество просмотров117K

PDF — формат, ставший уже стандартом. Он был изначально создан Adobe для представления текста и изображений в документе с фиксированной структурой. Давно не редкость для веб-приложений, поддерживающих скачку данных, таких как счета или отчеты, отдавать их в PDF формате. Так что в этой статье мы пройдем простую генерацию PDF документов используя PHP.

Dompdf — это отличная библиотека, способная генерировать PDF из HTML-разметки и CSS-стилей (в большинстве случаев это стили, совместимые с CSS 2.1 с поддержкой некоторых свойств CSS3). Мы можем определить, как наше содержимое должно выглядеть, используя эти знакомые технологии, и после легко конвертировать его в фиксированный документ. Также эта библиотека имеет и другие полезные и интересные функции.
Читать дальше →

Некоторые рекомендации по организации автонумерации при написании научных статей и диссертаций средствами Microsoft Word

Время на прочтение11 мин
Количество просмотров139K
– А ларчик просто открывался.
И.А. Крылов


О чём эта статья

В настоящей работе описываются способы автоматической организации нумерованных объектов при написании статей, рефератов, докладов, диссертаций и пр. При написании подобного рода материалов неизбежно возникает необходимость нумеровать те или иные объекты, например, формулы или пункты в списке используемой литературы. При этом многие авторы пользуются при написании текстовым редактором Microsoft Word.
В случае тривиальной «ручной» организации, при которой каждый номер прописывается непосредственно руками (обычно, в самом конце, когда текст полностью готов), автор работы может ошибиться в каком-либо номере, и все дальнейшие номера окажутся неверными. Более того, после рецензии те или иные части работы могут быть вставлены в текст или убраны из него. Последнее, зачастую, требует полной перенумерации объектов в документе. Таким образом, цель настоящей статьи состоит в доведении до читателя способов автоматической организации нумерации объектов, позволяющих избежать вышеописанные ситуации.
Предупреждение: в данную статью вошли лишь те приёмы, с которыми автор столкнулся при написании кандидатской диссертации. Описываемые способы организации нумерованных объектов не претендуют на единственность, полноту и оптимальность. Имеются другие интересные способы, например, в TeX. Несомненно, читатель сможет найти и иные способы достижения сформулированной цели. В любом случае, ознакомиться с подходами автора (хотя бы на досуге) следует любому заинтересованному читателю.

Основы работы с полями MS Word


В данном разделе описываются основные поля текстового редактора MS Word, необходимые для организации списков и ссылок на них, а также методы работы с ними.
Поле MS Word – это объект, принимающий то или иное значение в зависимости от ключевых слов и параметров этого поля. Для вставки поля в текст необходимо нажать сочетание клавиш Ctrl + F9 или выбрать соответствующее меню на ленте.
image
После вставки поля в тексте появятся серые фигурные скобки.
image

Читать дальше →

Библиотеки для конвертирования PDF документа в картинку

Время на прочтение7 мин
Количество просмотров21K
«Клавиша Print Screen отлично справляется с поставленной задачей. Что может быть проще, чем сохранить документ как изображение?» — спросите вы. Долгое время я работал над задачами сохранения отчётов и форм в формате PDF. Но даже с простыми многостраничными таблицами цифр не все PDF генераторы справлялись одинаково успешно.

Не так давно, мне попался проект, заказчик которого хотел свои сохранённый в PDF маркетинговые шедевры конвертировать в один из графических форматов, например PNG. После долгих уговоров и приведения контраргументов, бюджет проекта позволял купить недорогой .NET компонент.

Оставалось выбрать самый подходящий под требования заказчика и, по-возможности, с хорошей англоговорящей, англо пишущей службой поддержки (не с полуострова Индостан):

Читать дальше →

Склеиваем несколько pdf-файлов в один средствами Mac OS

Время на прочтение2 мин
Количество просмотров47K
Для того, чтобы просто «склеить» несколько PDF-файлов в один не обязательно покупать редакторы в App Store, достаточно воспользоваться базовыми возможностями программ Preview и Automator, и сейчас я покажу, как это сделать.
Читать дальше →

Красивая печать в PDF из Django

Время на прочтение6 мин
Количество просмотров21K
Т.к. эта статья — результат нескольких лет экспериментов, то букв будет много. Но — возможно — она сэкономит кому-то многие месяцы езды велосипедом по граблям, которые и описаны.
В общем случае речь идет даже не о Django, а о печати регламентированных документов из python с использованием шаблонизаторов.
Кому дальше читать лень — сразу скажу — проблема до конца не решена. Но более-менее рабочий вариант вырисовался.
Читать дальше →

Ближайшие события

В MS Word 2013 можно будет импортировать файлы PDF

Время на прочтение1 мин
Количество просмотров9.7K
Продвинутые пользователи MS Word наверняка знают, что с версии Office 2010 он умеет сохранять документы в формат PDF, есть и соответствующий плагин для Office 2007. Но поддержка PDF только этим и ограничивалась: текстовый редактор никогда не умел открывать файлы PDF, уже тем более редактировать их, без установки программного обеспечения от третьих фирм. Всё изменится в Word 2013 (Word 15): с ним будет поставляться конвертер для преобразования документов PDF в документ Word.

Согласно неофициальной информации, конвертер не гарантирует стопроцентное соответствие результата оригинальному документу и лучше всего работает с преимущественно текстовыми файлами.
Читать дальше →

Как удобно делать заметки в pdf файлах

Время на прочтение2 мин
Количество просмотров47K
Хочу поделится новой модой с моего университета (Universidad de Barcelona — Spain). В нашей группе 70+ человек. Учимся на Computer Engineer. Первый год все ходили с бумажками, тетрадками, блокнотами… Но при виде метода преподавания урока большинства учителей (презентации с прожектора), я решил брать с собой ноутбук и нашел программу заметок для pdf формата. Именно в этом формате нам дают материал учителя. После того как пару однокурсников увидели эту программу у меня, с каждым днём количество ноутбуков на парах стало увеличиваться. Даже некоторые учителя стали ей пользоваться отравляя нам отчёты по работам с аннотациями этой программы.

Итак, PDF-XChange Viewer. Программа дает возможность тонкой настройки и включает в себя огромный набор нужных функций о которых можно прочитать на офф-сайте в разделе Feature List .

Что мне больше всего нравится:

  • Ряд заметок
  • Возможность разделять или склеивать разные документы на отдельные страницы.
  • Настройка быстрых клавиш на любую функцию/заметку программы.
  • Прилипание к границам, полям или сетке.
  • Поиск по заметкам, по темам по всем в отрытых документах
  • Snapshot Tool — выделил нужное и сразу с буфера картинкой в e-mail учителю
  • Создание своих заметок.
  • Закладки и работа с ними.
  • Экспорт всех заметок в файл или импорт их в документ.
  • Русский и другие языки.
  • Работает под Wine в linux и МacOSX


В чем удобность?
Читать дальше →

Как формат PDF перестал ассоциироваться с бревном

Время на прочтение3 мин
Количество просмотров2.4K
Пролог

На работу привезли в рамках акции новые программы для документооборота — корпоративные профессиональные версии. Они нам программы — мы им свое частное и публичное мнение. Ставить их, к слову, вместо не совсем лицензионных версий этих же программ от Adobe. Соответственно, задачи, которые возлагаются на программы — работать с PDF (конвертировать их по-всякому, и т.п.), сканировать документы и распознавать символы. Меня посадили с этим ПО разбираться — вдруг там все на китайском, и вообще.

Действие первое, второе и третье

Привык к тому, что PDF — это как область с наименьшей энтропией, только для документов. С ним самим кроме конвертации ничего особенно сделать нельзя, и это, например, позволяет передавать в PDF любую информацию, в неизменности которой можно быть более-менее уверенным. Так вот, в пух и прах мои представления.
Итак, сделал для себя ряд интересных выводов:
Читать дальше →

PDF в России – стандарт или не стандарт?

Время на прочтение3 мин
Количество просмотров37K
Почему в России PDF фактически не является стандартом, хотя и имеет статус международного стандарта (закреплён ISO/IEC 32000-1:2008)?

Казалось бы, PDF – признанный на Западе стандарт электронного документооборота, формат удобный, компактный, при открытии файла на разных компьютерах форматирование не ползёт. Программы для просмотра и создания PDF-файлов легко и бесплатно находятся в интернете. И всё же у нас мало используют этот формат. Попробуем разобраться.
Читать дальше →

URL в PDF? Без проблем

Время на прочтение1 мин
Количество просмотров2.7K
Уже несколько месяцев являюсь счастливым обладателем ebook'а.
Очень часто нахожу интересные статьи в интернете, но бывает, что статья довольно объемная, да и не всегда есть время читать ее. Зато есть много времени по дороге домой.

Конкретно моя книжка кушает все форматы, в том числе и html. Но html без картинок, а только текст. А некоторые модели не кушают html. И что же тогда делать?

Недавно открыл для себя удобный и простой конвертер, который преобразует нужный URL в обычный PDF. Причем без особых сложностей. Просто вводите ссылку и через 5-10 секунд у вас готовый PDF файл.


Читать дальше →