PDF

Межплатформенный формат электронных документов

Статьи Посты Новости Авторы Компании

Bright_Translate 16 фев в 17:29

Создание PDF размером с Германию

Простой

7 мин

24K

Блог компании RUVDS.comPDFТекстовые редакторы и IDE*

Обзор

Перевод

Сегодня утром, пролистывая ленты социальных сетей, я уже в который раз встретила утверждение, что у PDF-документа есть максимально допустимый размер.

Подобное утверждение появилось на просторах интернета ещё в 2007 году. Этот твит является характерным примером постов с аналогичным заявлением, в которых оно преподносится как твёрдый факт без каких-либо подтверждающих свидетельств или объяснений. То есть мы должны просто принять, что один PDF может покрыть лишь около половины площади Германии, и нам никак не объясняют, почему его магический предел составляет 381 километр.

Тут мне стало интересно – а создавал ли кто-нибудь такой большой PDF? Насколько это сложно? А можно ли сделать документ ещё больше?

Несколько лет назад я из праздного любопытства немного поигралась с PostScript, предшественником PDF, и это оказалось очень увлекательным! Ранее мне не доводилось изучать внутреннее устройство PDF, так что здесь у меня возник для этого хороший повод.

Приступим!

Читать дальше →

+120

ru_vds 4 окт 2023 в 16:00

Извлечение текста из файлов PDF при помощи Python

Средний

15 мин

31K

Блог компании RUVDS.comPython*Алгоритмы*PDFХранение данных*

Туториал

Перевод

▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.

Читать дальше →

+53

host_m 6 янв 2021 в 11:03

Пугающие эксперименты с PDF: запускаем «Арканоид» в документе

5 мин

12K

Блог компании VDSina.ruНенормальное программирование*JavaScript*Google ChromePDF

Перевод

Подробнее об этом хаке и особенностях его работы можно узнать из доклада на !!con 2020 «Playing Breakout… inside a PDF!!»

Если вы его не смотрели, то попробуйте открыть файл breakout.pdf в Chrome.

Как и многие из вас, я всегда считал PDF довольно безопасным форматом: автор создаёт текст и графику, после чего он открывается в программе просмотра PDF, больше ничего не делая. Несколько лет назад я мимоходом слышал об уязвимостях Adobe Reader, но особо не задумывался о том, как они могут возникать.

Изначально Adobe сделала PDF именно для этого, но мы уже выяснили, что сегодня это совсем не так. В 1310-страничной спецификации PDF (на самом деле довольно понятном и интересном чтиве) описывается безумное количество возможностей, в том числе:

Встроенный Flash
Аннотации в виде звука и видео
Аннотации в виде 3D-объектов (!)
Метаданные Web capture
Произвольные математические функции (в том числе и Тьюринг-неполное подмножество PostScript)
Формы с поддержкой Rich text, использующие подмножество XHTML и CSS
Вложения в виде файлов и коллекций файлов

но самое интересное для нас…

Это скрипты JavaScript на основе стандартной библиотеки, совершенно отличающейся от библиотеки браузера

Читать дальше →

+54

Amet13 29 сен 2018 в 12:25

Как я диплом в LaTeX писал с GitHub, Docker и TravisCI

5 мин

45K

Open source*LaTeX*PDF

Еще со времен обучения в университете я использовал LaTeX для оформления лабораторных и курсовых работ. Познакомился впервые с LaTeX на Coursera, на курсе "Документы и презентации в LaTeX".

В этой заметке я расскажу, как я писал диплом с помощью LaTeX и почему я использовал GitHub, Docker и TravisCI.

Но зачем?

Читать дальше →

+75

caduser 19 янв 2018 в 11:46

Увеличиваем себе премию в два раза, или как взломать документы, подписанные усиленной квалифицированной подписью

4 мин

50K

Блог компании АСКОНИнформационная безопасность*PDFCAD/CAM*ECM/СЭД*

На волне новостей чип-апокалипсиса 2018 года, когда взломано почти всё, а сайты мировых брендов, сами того не подозревая, майнят в наших браузерах криптовалюту, мы решили покуситься на святая святых и взломать документы, подписанные усиленной квалифицированной электронной подписью. И вот что из этого вышло.

Читать дальше →

+74

icoz 12 янв 2014 в 16:27

Экспорт Избранного на Хабре в PDF

3 мин

35K

Python*PDF

Доброго времени суток, хабровчане!

Думаю многих из вас когда-либо посещала мысль «вот бы сохранить статьи с Хабра».
Такая же мысль посетила и меня два дня назад. Сохранить захотел не просто каждую статью, а только те, что в избранном, да не поштучно, а сразу всё скопом.
Первая мысль — надо написать скрипт, который всё это вытянет. Python я уже подучил, но вот с генерацией PDF на нем сталкиваться ещё не приходилось.

Закручинился я было… Но OpenSource и Хабр спасли меня!

Краткая суть статьи для тех, кому не интересно много читать

В статье описан доработанный скрипт на Python fav2pdf.
Изначальный автор скрипта vrtx, за что ему большое спасибо.
«Usage — лучше тысячи слов!»

usage: fav2pdf.py [-h] [-d OUTPUT_DIR] [--from-date FROM_DATE]
                  [--to-date TO_DATE] [--all-in-one]
                  [--only-hubs [ONLY_HUBS [ONLY_HUBS ...]]] [--no-comments]
                  [--no-symlinks]
                  user

Tool for save favorite posts from habrahabr.ru in pdf's or html's

positional arguments:
  user                  habrahabr.ru username

optional arguments:
  -h, --help            show this help message and exit
  -d OUTPUT_DIR, --output-dir OUTPUT_DIR
                        Directory for output
  --from-date FROM_DATE
                        From date
  --to-date TO_DATE     To date
  --all-in-one          Save all posts in one PDF-file
  --only-hubs [ONLY_HUBS [ONLY_HUBS ...]]
                        Save only posts from hubs. For multiple: "--only-hubs
                        Hub1 Hub2 --"
  --no-comments         Dont save comments from posts
  --no-symlinks         Dont create symlinks to posts
  --create-html         Create html's instead of pdf's
  --create-url-list     Just save user.txt with all links

И как же они меня спасли?

+85

ContentAI_Team 27 сен 2010 в 11:58

PDF в России – стандарт или не стандарт?

3 мин

36K

Блог компании Content AIPDF

Почему в России PDF фактически не является стандартом, хотя и имеет статус международного стандарта (закреплён ISO/IEC 32000-1:2008)?

Казалось бы, PDF – признанный на Западе стандарт электронного документооборота, формат удобный, компактный, при открытии файла на разных компьютерах форматирование не ползёт. Программы для просмотра и создания PDF-файлов легко и бесплатно находятся в интернете. И всё же у нас мало используют этот формат. Попробуем разобраться.

Читать дальше →

+77

181

DimanX 20 янв 2010 в 17:37

URL в PDF? Без проблем

1 мин

2.6K

PDF

Уже несколько месяцев являюсь счастливым обладателем ebook'а.
Очень часто нахожу интересные статьи в интернете, но бывает, что статья довольно объемная, да и не всегда есть время читать ее. Зато есть много времени по дороге домой.

Конкретно моя книжка кушает все форматы, в том числе и html. Но html без картинок, а только текст. А некоторые модели не кушают html. И что же тогда делать?

Недавно открыл для себя удобный и простой конвертер, который преобразует нужный URL в обычный PDF. Причем без особых сложностей. Просто вводите ссылку и через 5-10 секунд у вас готовый PDF файл.

Читать дальше →

+82

PDF

Создание PDF размером с Германию

Новости

Извлечение текста из файлов PDF при помощи Python

▍ Введение

Пугающие эксперименты с PDF: запускаем «Арканоид» в документе

Как я диплом в LaTeX писал с GitHub, Docker и TravisCI

Истории

Увеличиваем себе премию в два раза, или как взломать документы, подписанные усиленной квалифицированной подписью

Экспорт Избранного на Хабре в PDF

PDF в России – стандарт или не стандарт?

URL в PDF? Без проблем

Вклад авторов