Как стать автором
Обновить
13.88

PDF

Межплатформенный формат электронных документов

Сначала показывать
Порог рейтинга
Уровень сложности

История FineReader: так создавалась легенда (часть I)

Время на прочтение 9 мин
Количество просмотров 2.8K
Ретроспектива

Не секрет, что многофункциональный редактор ContentReader PDF является технологическим наследником популярного решения компании ABBYY – FineReader PDF. После модификации исходного продукта его новую историю на российском рынке пишет Content AI. Между тем, легендарному редактору PDF в этом году исполнилось 30 лет. И это достойный повод, чтобы вспомнить, как все начиналось и как развивался продукт, ставший незаменимым инструментом для всех, кто работает с документами. 

Для полного погружения мы смогли найти ноутбук IBM ThinkPad T61 c Windows XP, установили на него все версии FineReader с 1 по 13 и сделали аутентичные скриншоты. Пристегнитесь, запускаем машину времени через три…два…один. 

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 9

Новости

Альтернативные утилиты для PDF

Время на прочтение 4 мин
Количество просмотров 9.2K


Помимо программ от Adobe есть много альтернативных специализированных библиотек и утилит для работы с PDF. Что характерно, зачастую опенсорсные инструменты даже удобнее, чем официальный* софт. Альтернативные ридеры/редакторы по функциональности сильно отличаются от Adobe. В свою очередь, программы Adobe сами отличаются от официальных спецификаций PDF.

*Примечание: программы Adobe не «официальные» в прямом смысле слова, потому что PDF является открытым и бесплатным стандартом ИСО.
Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 24

Человек, который создал Adobe

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 6.4K
Ретроспектива


19 августа 2023 года ушёл из жизни Джон Уорнок — ученый, который стал успешным бизнесменом и основал IT-компанию, завоевавшую известность во всём мире. Выручка корпорации Adobe в 2022 году составила 17,6 млрд. долларов США, а с ее продуктами работают десятки миллионов пользователей в разных уголках земного шара. Причем название одного из этих продуктов уже давно стало нарицательным, по крайней мере, глагол «отфотошопить» можно без труда отыскать в некоторых современных словарях.
Читать дальше →
Всего голосов 33: ↑32 и ↓1 +31
Комментарии 14

Как PDF изменил мир

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 9.1K
Ретроспектива

Нам сейчас трудно представить, но было время, когда документы для печати нельзя было создать и подготовить за считанные секунды. И вообще, раньше обмен документами был громоздким процессом, который включал в себя распечатку и физическую передачу из рук в руки. Но всё изменилось в 1993 году, когда Adobe Systems представила миру PDF (Portable Document Format) — революционно новый формат файлов, он упростил обмен документами и их архивирование.

Тридцать лет спустя PDF — популярный формат документов для всего: от налоговых форм до электронных книг и руководств пользователя. PDF изменило то, как пользователи создают, делятся и получают доступ к цифровым документам. Только в прошлом году пользователи открыли более 400 миллиардов PDF-файлов в продуктах Acrobat, а Adobe обработала более 8 миллиардов транзакций с электронными и цифровыми подписями. PDF стал неотъемлемой частью современного мира, оказав фундаментальное влияние на появление онлайн-печати.
Читать дальше →
Всего голосов 48: ↑48 и ↓0 +48
Комментарии 62

Истории

Как использовать C# для разделения PDF документа

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 1.9K
Туториал
Recovery Mode

PDF является широко используемым форматом электронных документов, но иногда мы хотим разделить большой PDF файл на несколько отдельных файлов для более удобного управления и обработки. В этой статье мы расскажем, как с помощью языка C# и Free Spire.PDF for .NET разбить PDF документ.

Читать далее
Всего голосов 7: ↑1 и ↓6 -5
Комментарии 5

Работа с файлами в приложениях: как уйти от зарубежных .NET-библиотек

Время на прочтение 11 мин
Количество просмотров 7K

Когда в разрабатываемом приложении нужно конвертировать, создавать или изменять файлы, приходится подключать для этого готовые решения — чтобы не погружаться в спецификации форматов. Таких решений много, в том числе для С#, но вот незадача: все они зарубежные. В нынешних условиях применять их может быть неудобно, а кому-то даже нельзя.

Я Максим Саутин из компании SautinSoft. Хочу порассуждать, почему в России не было собственных разработок в этом направлении, и рассказать, как работают наши .NET-библиотеки, которые используются на российском рынке. 

Читать далее
Всего голосов 39: ↑8 и ↓31 -23
Комментарии 85

Как убрать пустые оборотные страницы из PDF после двухстороннего сканирования

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 5.3K
Кейс

Около двух месяцев назад я написал статью как сканировать многостраничные двухсторонние документы, если под рукой только обычный сканер с автоподачей, в которой затронул проблему того, что МФУ часто имеют дуплексную двустороннюю печать, но односторонний сканер.

Однако после решения проблемы быстрого сканирования больших двухсторонних документов, была обнаружена ещё одна проблема — некоторое количество страниц могут оказаться односторонними. И это означает, что PDF будет иметь белые страницы, например, со сканами перфораций или отверстий под кольца.

Конечно, можно удалить несколько страниц из PDF вручную, но что если таких файлов сотни, а сами документы имеют несколько десятков или даже сотен страниц как на фотографии?

Используем bash-скрипт
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 10

Бесплатный доступ к PDF 2.0

Время на прочтение 5 мин
Количество просмотров 6K


В начале года мы задавались вопросом, почему стандарты ИСО не публикуют в открытом доступе, хотя эти знания нужны и полезны для человечества? По мнению некоторых представителей IT-индустрии, платный доступ к документам — не самая эффективная политика. Особенно когда дело касается общественно важных стандартов, таких как ISO 8601 — Представление дат и времени (в интернет-магазине первая часть продаётся за 166 франков) или ISO 639 — Коды для представления названий языков (тоже две части по 166 CHF). Платный доступ — искусственный барьер, который только мешает.

Для отдельных стандартов находятся спонсоры, которые оплачивают организации ИСО расходы, чтобы выложить документы в открытом доступе для всех. Это относится и к новому пакету стандартов PDF 2.0, принятому в 2017–2022 гг (разные части), который пришёл на смену прежним версиям PDF 1.0–1.7.
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 4

Встраиваем JS- скрипты в PDF для социальной инженерии — пошаговое руководство

Время на прочтение 7 мин
Количество просмотров 8.9K

Введение

Согласно статистике, большинство всех атак совершается с использованием вредоносного программного обеспечения, а половина от всех атак проводится с использованием методов социальной инженерии.

Таким образом, для проведения проверок с использованием методов социальной инженерии полезно научиться отслеживать реакцию пользователей, что они будут делать с полученным документом. Причём делать это необходимо штатными средствами, никого не взламывая. JavaScript идеально подходит для этих целей.

Мы, Маргарита Белоусова, аналитик аналитического центра и Анастасия Прядко, специалист по анализу защищенности компании УЦСБ написали пошаговую инструкцию, как сделать фишинговый документ: детали и примеры кода. Кроме того, мы кратко рассмотрели структуру PDF-файла, как и куда в него внедрять JavaScript, а также способы маскировки факта внедрения скрипта. Наш опыт пригодится безопасникам, системным администраторам и всем, кто связан с ИБ.

Структура PDF

Организация данных в памяти

PDF способен на большее, чем просто отображать текст. Он может также включать в себя изображения и другие мультимедийные элементы, может быть защищён паролем, выполнять JavaScript и многое другое. Вне зависимости от версии структура PDF документа неизменна:

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 6

Как сканировать многостраничные двухсторонние документы, если под рукой только обычный сканер с автоподачей

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 9.9K
Туториал

Нет проблемы быстро сканировать документы с любым количеством страниц, если под рукой есть сканер с устройством автоматической подачи. Однако часто МФУ имеют дуплексную двустороннюю печать и сканер, который умеет сканировать только с одной стороны, но имеет устройство автоматической подачи документов.

При этом сканирование больших двухсторонних документов выглядит проблемой, которая поедает большое количество времени.

Ведь если документ состоит всего из нескольких страниц, то нет необходимости связываться с командной строкой, потому что можно вручную склеить сканы в любой программе, которая работает с PDF, просто переставив местами страницы или даже вручную перевернув их на сканере.

Но что если документ А4 формата имеет несколько десятков или даже сотен страниц как на фотографии?

Используем консольную программу pdftk
Всего голосов 33: ↑31 и ↓2 +29
Комментарии 31

Самый простой способ редактировать PDF

Время на прочтение 3 мин
Количество просмотров 54K


История сложилась так, что в 80-е годы именно PostScript стал стандартом для цифровых документов, а из него появился «портативный» PDF. Вероятно, нам ещё долго придётся жить с этим наследием типографской индустрии 20 века.

Быстро поставить подпись/печать на полученный PDF и отправить его адресату — самый типичный сценарий в современном документообороте. Практика показывает, что некоторые офисные сотрудники предпочитают распечатать PDF, расписаться от руки — и отсканировать распечатку с подписью, сводя к нулю логику электронного документооборота. Если бумажная копия нужно только для сканирования, то это совершенно бесполезная трата бумаги и времени.

Посмотрим, какие есть варианты для быстрого редактирования PDF с сохранением правок в цифровом виде.
Читать дальше →
Всего голосов 41: ↑38 и ↓3 +35
Комментарии 157

Открытый проект Электронного подписания внутренних документов компании на примере кадровых

Время на прочтение 15 мин
Количество просмотров 3.4K

По мотивам Социальный труд и открытое проектирование. Введение

предлагается организовать открытый проект «Электронное подписание внутренних документов компании». Интерес к электронной подписи большой (МЧД и т.п.), но простых решений нет.

В целом подписание внутренних документов компании несложно расширить на «внешнее»: для этого достаточно с контрагентами заключить регламент, который «узаконит» применение подписи. Внутренние документы компании – разнообразны, распорядительные (приказы, распоряжения, служебные записки), бухгалтерские и управленческие отчеты и другие документы.

В целом «Электронное подписание внутренних документов компании» можно распространить на очень широкую отраслевую специфику, например, банковскую – подписание первичных документов и бухгалтерских отчетов (балансы, книга открытых \ закрытых счетов и т.п.) по 2346-У. 

Недавно обновился Трудовой кодекс (Статьи 21.1 – 22.3 введенные ФЗ от 22.11.2021 N 377) в части электронной подписи, что резко повысило интерес к подписанию кадровых документов. Предлагается в рамках проекта научиться подписывать кадровые документы, т.к. если это получится, то остальное будет реализовать еще проще. Важно не столько услужение задачи – сколько то, что электронный документооборот хоть как-то начали регламентировать законодательно (криво, но хоть как-то).

Как вариант: у компании уже есть HR-система, но без кнопки «подписать». Проект КЭДО позволит добавить эту кнопку (включая маршруты согласования и подписания) и организовать долговременный архив с электронной подписью документов в рамках юридически значимого документооборота.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 21

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

Время на прочтение 8 мин
Количество просмотров 3.1K

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт.

Сегодня я хочу рассказать о том, как я писал отчеты на R, с чем сталкивался и как решал проблемы, которые возникали по ходу разработки. Отчеты были в формате PDF и запускались из Python в Camunda.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 4

Ближайшие события

SmartDev
Дата 21 сентября
Время 10:00
Место Москва Онлайн
Yandex Scale
Дата 25 – 26 сентября
Время 17:00 – 18:00
Место Москва Онлайн
Битва пет-проектов
Дата 25 сентября – 30 ноября
Место Онлайн
Business&IT Day: Retail CPG
Дата 28 сентября
Время 09:50 – 14:00
Место Онлайн
XIX конференция разработчиков свободных программ «Базальт СПО»
Дата 29 сентября – 1 октября
Время 10:00 – 19:00
Место Переславль-Залесский Онлайн
Kokoc Hackathon
Дата 29 сентября – 1 октября
Время 19:00 – 21:00
Место Онлайн
Ruby Russia 2023 Online
Дата 30 сентября
Время 11:00 – 21:00
Место Онлайн
PG Boot Camp Russia 2023
Дата 5 октября
Время 10:00 – 17:00
Место Москва Онлайн
Joker
Дата 9 – 14 октября
Время 16:00 – 19:30
Место Санкт-Петербург Онлайн
Russia Risk Conference 2023 — 19-я конференция по риск-менеджменту
Дата 25 – 26 октября
Время 10:00 – 19:00
Место Москва Онлайн

Работаем с pdf из контекстного меню файлового менеджера

Время на прочтение 4 мин
Количество просмотров 4.8K
Туториал

Замечательный файловый менеджер Dolphin всем хорош. И две панели, и разнообразные контекстные меню ускоряющие обработку всевозможных команд и заданий. Но что делать если нужно простенько и быстро собрать несколько одностраничных pdf-файлов?

Узнать больше
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 5

Мечтают ли алгоритмы о финансовой отчётности: новый способ работы с ФО в ВТБ

Время на прочтение 13 мин
Количество просмотров 1.6K

Финансовая отчетность (ФО) — штука предельно ответственная. Получаемая от бизнеса ФО постоянно нужна банку для организации повседневной деятельности. Но процесс получения важной для нас отчётности омрачается тем, что работа с ФО — это монотонный неэффективный конвейер, на поддержание которого банковские служащие тратят тысячи человекочасов. ВТБ использует электронные инструменты получения ФО, такие как: ФНС, 1С, Коробочное решение распознавания. Это основные направления развития, но сегодня они не покрывают всю потребность в клиентской ФО. 

Меня зовут Андрей Ходяков, я работаю с неструктурированными данными в управлении моделирования КИБ СМБ в банке ВТБ. И в этом материале я расскажу, как мы искали и нашли собственное решение для борьбы с рутиной ФО.

Взглянуть на ФО под новым углом
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 4

Разделение, объединение и поворот PDF-документов на Python с помощью borb

Время на прочтение 5 мин
Количество просмотров 7.8K

Формат переносимых документов (PDF) не является форматом WYSIWYG (What You See is What You Get (То, Что Вы Видите, это То, Что Вы Получаете)). Он был разработан, чтобы быть независимым от платформы, независимым от базовой операционной системы и механизмов рендеринга.

Для достижения этой цели PDF был создан для взаимодействия с помощью чего-то более похожего на язык программирования, и для достижения результата полагается ряд инструкций и операций. Фактически, PDF основан на языке сценариев - PostScript, который был первым независимым от устройства языком описания страниц.

В этом руководстве мы будем использовать borb - библиотеку Python, предназначенную для чтения, манипулирования и генерации PDF-документов. Он предлагает как низкоуровневую модель (что позволяет получить доступ к точным координатам и макету), так и высокоуровневую модель (где вы можете делегировать точные расчеты полей, позиций и т. д.).

Читать далее
Всего голосов 8: ↑5 и ↓3 +2
Комментарии 2

Работа с pdf-файлами с помощью библиотеки fitz

Время на прочтение 4 мин
Количество просмотров 15K

Возникла идея создать небольшую утилиту на Python, которая будет парсить PDF и сверять со списком швов, взятых из BIM модели. Изначально я обратился к библиотеке pdfminer, вернее к ее форку pdfminer.six. Но скорость работы меня совершенно не устраивала. Вот, например, загрузка файла в 10 страниц и парой картинок.

Читать далее
Всего голосов 18: ↑17 и ↓1 +16
Комментарии 4

Как сравнить два PDF-документа

Время на прочтение 4 мин
Количество просмотров 19K
Перевод

Существует несколько фундаментальных задач, которые встречаются при работе с большинством, а то и со всеми документами. Одна из них — сравнить две версии одного и того же документа. Это могут быть юридические соглашения или исправления в отчёте, которые, скорее всего, в наши дни будут представлены в формате PDF. В этой статье рассказывается, как можно сравнить содержимое двух файлов PDF или почему у вас не получится этого сделать.
Читать дальше →
Всего голосов 36: ↑34 и ↓2 +32
Комментарии 28

Кунг-фу стиля Linux: PDF для пингвинов

Время на прочтение 7 мин
Количество просмотров 16K
Перевод
Вначале PostScript представлял собой язык программирования для принтеров. И хотя PostScript-принтеры всё ещё не потеряли актуальности, существует и множество других форматов, в которых можно отправлять данные на печать. Но благодаря PostScript появился Portable Document Format — PDF, который стал невообразимо популярным. Пожалуй, не проходит и дня, чтобы каждый из нас не просмотрел бы какой-нибудь PDF-документ на своём компьютере. Конечно, есть и форматы, конкурирующие с PDF, но им, в сравнении с PDF, принадлежит лишь небольшая доля рынка. Просмотр PDF-файлов в Linux — это не проблема. А как насчёт их редактирования? Как оказалось, это тоже несложно, правда, только если знать о том, как именно это делается.


Читать дальше →
Всего голосов 31: ↑31 и ↓0 +31
Комментарии 26

Linux на мобилках, PDFium и как рендерить PDF в 2 раза быстрее

Время на прочтение 5 мин
Количество просмотров 5.1K

Привет, Хабр! В этой статье хотим рассказать о том, как мы протестировали три основные открытые библиотеки для работы с PDF-документами: Poppler, PDFium и MuPDF. Сравнили скорость рендера документов разного объёма, качество рендера, требования к технологиям разработки и условия лицензий для коммерческих продуктов на базе этих библиотек. Спойлер: победителем стала библиотека PDFium, но, как всегда, есть нюансы. Под катом обо всём по порядку.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 5

Вклад авторов