Как стать автором
Обновить
10.47

PDF

Межплатформенный формат электронных документов

Сначала показывать
Порог рейтинга
Уровень сложности

Как реализовать пакетную подпись PDF-документов

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров2.2K

Автоматическое подписание документов электронной подписью используют там, где требуется пакетная подпись документов без участия сотрудника. Это могут быть как небольшие сайты, например по продаже билетов в театр и музей, или порталы с онлайн-обучением при отправке сертификатов о прохождении курсов, так и крупные банковские приложения, например, при генерации выписок по счетам, форм договоров или квитанций. В ЕСИА, СМЭВ, ГИС ЖКХ и других государственных информационных системах также реализована автоматическая подпись.

В этой статье реализуем автоматическое подписание для PDF-файлов и добавим штамп «Документ подписан электронной подписью».

Читать далее

Новости

Цифровой архив с полнотекстовым поиском, в том числе по PDF и картинкам

Время на прочтение3 мин
Количество просмотров5.6K


У каждого человека с годами скапливается множество бумажных документов, в которых непросто разобраться или что-то найти. Эта проблема ещё более актуальна для организаций.

Опенсорсная программа Paperless-ngx позиционируется как оптимальное решение для создания цифрового архива. Со встроенной системой распознавание символов (OCR) и обучением на основе ранее отсканированных документов она создаёт хранилище с поиском, где можно быстро найти любой документ. Всем документам присваиваются теги, так что они могут присутствовать в разных тематических категориях, это удобнее распределения по папкам.

Paperless-ngx можно установить на домашний сервер и загружать документы через браузер с любого устройства.
Читать дальше →

Как сканировать документы А3 формата, если под рукой только сканер А4 формата

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.4K

Оцифровка чертежей и документов формата А3 не представляет сложности, если у вас есть сканер соответствующего размера. Однако что делать, если под рукой лишь стандартное МФУ формата А4?

Формат А3 в два раза больше А4: это два стандартных листа, соединенных по длинной стороне. В результате, чтобы оцифровать А3, приходится сканировать его по частям - левую и правую половинки, а затем как-то их объединять.

Ручная склейка занимает много времени, особенно если документов много. А если тратить время на ручную склейку не хочется? Автоматизация такого процесса избавляет от рутинной работы. Актуально для чертежей и схем.

Как легко склеивать документы А3 из А4

От jsPDF к Chrome: решение сложной задачи рендеринга PDF с таблицами

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.1K

Кейс про генерацию PDF из HTML страницы с таблицами. Расскажу какие решения пытался применить, с какими проблемами пришлось столкнуться и как удалось сгенерировать корректный PDF.

Читать далее

Истории

Генерация PDF документов в Lazarus IDE

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров1.5K

Для разработки различных заглушек, используемых для тестирования сервиса, пока не готова ответная часть, я иногда использую отрисовку нужной информации на Canvas PaintBox`а, и последующую генерацию PDF с отрисованной картинкой (сохраняю BMP в поток, затем загрузка из потока для размещения изображения в PDF) и дополнением документа текстовой информацией. Для реализации такого подхода я использую модуль fpPDF, который, на мой взгляд, является достаточно простым и удобным. Для ознакомления с возможностями модуля ниже привожу вольный перевод статьи разработчика данного модуля.

Читать далее

Хакерские утилиты Дидье Стивенса

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров30K


Дидье Стивенс — бельгийский разработчик и авторитетный специалист по информационной безопасности. Наиболее известен своими инструментами по взлому паролей Windows, анализу документов PDF и внедрению туда вредоносных файлов, а также как автор опенсорсных утилит Didier Stevens Suite: это 140 программ для системных операций с файлами, процессами, реестром и прочими штуками. Например, диспетчер задач Windows, реализованный в Excel/VBA (на КДПВ).
Читать дальше →

Как извлечь текст из сканов: OCR, нейросети и их возможности

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7.4K

Отсканированные PDF-файлы, которые невозможно редактировать, знакомы многим. Документ выглядит как текст, но это всего лишь изображение, и любое изменение становится настоящей головной болью. На помощь приходит OCR — технология оптического распознавания символов.

Читать далее

GUI для исследования внутренностей PDF

Время на прочтение3 мин
Количество просмотров8.4K


Как известно, PDF-файлы часто используются как контейнеры для вирусов и эксплоитов. Они применяются в фишинговых кампаниях и социальной инженерии, когда жертве присылают для просмотра «безобидный документ» в формате PDF, а тот запускает на исполнение вредоносный код через незакрытую уязвимость в браузере или PDF-ридере.

Перед открытием документа всегда желательно посмотреть, что находится внутри. Для этих целей существуют парсеры, которые разбирают PDF. Например, Interactive PDF Analysis (IPA, на скриншоте вверху) и другие.

Даже если перед нами чистый PDF, иногда нужно изучить содержимое и извлечь полезные ресурсы в нетронутом виде — например, оригинальные изображения в JPG.
Читать дальше →

7 лучших российских аналогов Adobe Acrobat в 2024 году

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров18K

Альтернативы Adobe Acrobat позволяют создавать, редактировать и обмениваться PDF-файлами. Какое отечественное решение для этого подойдет?

Указ Президента России № 166 от 30.03.2022 о переходе на российское программное обеспечение устанавливает требование государственным органам и госзаказчикам с 1 января 2025 года использовать отечественное ПО на объектах критической информационной инфраструктуры.

Решение принято с целью импортозамещения программного обеспечения и повышения безопасности и независимости от зарубежных технологий.

Читать далее

Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 2

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров4.3K

В предыдущей части статьи мы рассмотрели общие подходы к тестированию PDF и познакомились с тем, как библиотеки pdfminer и PDFQuery помогают нам получать детальную информацию об объектах. Достаточно ли нам этой информации? Далеко не всегда. В этой статье мы расскажем о решении некоторых интересных технических проблем.

Читать далее

Создание агрегаторов научных статей

Время на прочтение4 мин
Количество просмотров4.2K

Всем привет! В этой статье я хочу рассказать про некоторые возможности автоматизации задач, с которыми сталкивается программист-исследователь. При изучении статей бывает очень полезно фиксировать прочитанную информацию, чтобы не приходилось постоянно возвращаться к одному и тому же материалу, чтобы что-то найти. Обычно я веду заметки, но переносить туда ссылки на статьи, скачивать их, создавать таблицы бывает муторно. Здесь я расскажу про некоторые советы, позволяющие автоматически структурировать изучаемую информацию.

Читать далее

Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 1

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров5.9K

Некоторое время назад у нас появился интересный проект по созданию сервиса, генерирующего документы в формате PDF. И появилась задача — написать тесты, которые проверят документ в мельчайших деталях, включая и содержимое, и вёрстку. В данной статье мы расскажем, каким образом справились с этой задачей.

Читать далее

Как удалить JavaScript из файлов PDF

Время на прочтение3 мин
Количество просмотров8.3K
Как известно, внутри файлов PDF можно размещать скрипты JavaScript, которые будут запускаться на исполнение в браузере. Например, если загрузить этот PDF, то вы увидите результат выполнения скрипта:



Это стандартная функция формата. Все разработчики браузеров знают, что PDF подобно HTML является активным контентом и может содержать исполняемые скрипты.
Читать дальше →

Ближайшие события

25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область

Сравнение сервисов для анализа документов AWS Textract, Azure Document Intelligence и Ripper Service от Технологики

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.1K

Бизнес все чаще и чаще предпочитают отдать искусственному интеллекту извлечение данных из документов: при таком подходе меньше ошибок и выше скорость обработки документов. И все чаще звучит вопрос — каким решением пользоваться и к какому подрядчику пойти за оказанием услуги?

Поэтому мы сделали сравнительный обзор двух популярных решений от лидеров рынка по обработке документов — AWS Textract, Microsoft Azure Document Intelligence и собственного решения Ripper Service. Сравнивали решения по нескольким основаниям: по производительности, по результатам извлечения значений из форм, а также по стоимости.

Надеемся, что данная статья будет полезна руководителям компаний, которые уже задумались о применении ИИ для массовой обработки документов.

Читать далее

Пишем чат-бот для работы с PDF

Время на прочтение7 мин
Количество просмотров9.3K

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

Читать далее

Автоматизируем проверку содержимого PDF-файлов с помощью pdf-test

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров5.6K

Многие сервисы в различных отраслях генерируют печатные формы счетов, отчётов и прочего в формате PDF. И, конечно, перед специалистами тестирования встаёт вопрос о проверке этих документов.

Обычно получается так, что сам факт генерации документа достаточно несложно покрыть автотестами, а вот проверку содержимого оставляют для ручного тестирования. Однако в подобных документах может быть много незаметных мест, различий и неточностей, которые человек может просто не заметить. Поэтому появляется необходимость проверку этих документов автоматизировать.

В этой статье мы познакомим вас с инструментом, который достаточно просто может закрыть потребность в проверке содержания PDF-файлов. Это инструмент с открытым исходным кодом — pdf-test. Он по сути является обёрткой pdfbox и позволяет из коробки использовать основные мэтчеры, не задумываясь о том, чтобы писать свои или о том, как именно парсить документ. Рассмотрим далее его применение на языке Java.

Читать далее

Создание PDF размером с Германию

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров26K

Сегодня утром, пролистывая ленты социальных сетей, я уже в который раз встретила утверждение, что у PDF-документа есть максимально допустимый размер.

Подобное утверждение появилось на просторах интернета ещё в 2007 году. Этот твит является характерным примером постов с аналогичным заявлением, в которых оно преподносится как твёрдый факт без каких-либо подтверждающих свидетельств или объяснений. То есть мы должны просто принять, что один PDF может покрыть лишь около половины площади Германии, и нам никак не объясняют, почему его магический предел составляет 381 километр.

Тут мне стало интересно – а создавал ли кто-нибудь такой большой PDF? Насколько это сложно? А можно ли сделать документ ещё больше?

Несколько лет назад я из праздного любопытства немного поигралась с PostScript, предшественником PDF, и это оказалось очень увлекательным! Ранее мне не доводилось изучать внутреннее устройство PDF, так что здесь у меня возник для этого хороший повод.

Приступим!
Читать дальше →

Dedoc: как автоматически извлечь из текстового документа всё и даже немного больше

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров6.5K

Привет, Хабр! 

Мы команда разработчиков Института Системного Программирования РАН, занимаемся Computer Vision в обработке электронных документов. Мы разработали open-source библиотеку dedoc, которая помогает разработчикам и дата-сайентистам в пару строк кода читать различные форматы текстовых документов и изображений с текстом, и далее приводить информацию к единой аккуратной структуре.

Читать далее

Акробата нет, но вы держитесь. Чем редактировать PDF?

Время на прочтение7 мин
Количество просмотров81K

Компания Adobe покинула российский рынок в марте 2022 года, лишив пользователей привычных инструментов для графического дизайна, редактирования фото и видео, веб-разработки. Одной из крупных потерь стал пакет программ для работы с документами формата PDF — Adobe Acrobat, поскольку, в отличие от программ для дизайна, они затрагивают максимально широкий круг пользователей. Это студенты и преподаватели, использующие учебные материалы, офисные работники из разных направлений бизнеса, сотрудники государственных организаций, работающие с документами, и обычные люди, которые оцифровывают личные бумаги для домашнего архива. Одним словом, трудно найти человека, который бы никогда не работал с файлами PDF.

C 2022 года все они оказались в ситуации, когда установить дистрибутив с официального сайта Adobe было невозможно, оплатить лицензию —  нельзя, продлить ее — тоже. Выход оставался один — искать альтернативы на российском рынке. Хорошая новость — такие варианты есть. И они ничуть не уступают международным продуктам — ни по качеству, ни по функциональности.

Читать далее

Как добавить фон в PDF-документ на языке C#

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3K

Фон отображается под текстом или изображениями на странице. Фон может быть как сплошным цветом, так и изображением. Фон можно выборочно применять к определенным страницам, диапазонам страниц или ко всем страницам документа. В этой статье я расскажу о том, как программно добавить цвет фона или изображение в PDF-документ на языке C# с помощью Free Spire.PDF for .NET.

Читать далее