Обновить
3.18

PDF

Межплатформенный формат электронных документов

Сначала показывать
Порог рейтинга
Уровень сложности

7 лучших российских аналогов Adobe Acrobat в 2024 году

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров38K

Альтернативы Adobe Acrobat позволяют создавать, редактировать и обмениваться PDF-файлами. Какое отечественное решение для этого подойдет?

Указ Президента России № 166 от 30.03.2022 о переходе на российское программное обеспечение устанавливает требование государственным органам и госзаказчикам с 1 января 2025 года использовать отечественное ПО на объектах критической информационной инфраструктуры.

Решение принято с целью импортозамещения программного обеспечения и повышения безопасности и независимости от зарубежных технологий.

Читать далее

Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 2

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров5.1K

В предыдущей части статьи мы рассмотрели общие подходы к тестированию PDF и познакомились с тем, как библиотеки pdfminer и PDFQuery помогают нам получать детальную информацию об объектах. Достаточно ли нам этой информации? Далеко не всегда. В этой статье мы расскажем о решении некоторых интересных технических проблем.

Читать далее

Создание агрегаторов научных статей

Время на прочтение4 мин
Количество просмотров4.7K

Всем привет! В этой статье я хочу рассказать про некоторые возможности автоматизации задач, с которыми сталкивается программист-исследователь. При изучении статей бывает очень полезно фиксировать прочитанную информацию, чтобы не приходилось постоянно возвращаться к одному и тому же материалу, чтобы что-то найти. Обычно я веду заметки, но переносить туда ссылки на статьи, скачивать их, создавать таблицы бывает муторно. Здесь я расскажу про некоторые советы, позволяющие автоматически структурировать изучаемую информацию.

Читать далее

Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 1

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров7.7K

Некоторое время назад у нас появился интересный проект по созданию сервиса, генерирующего документы в формате PDF. И появилась задача — написать тесты, которые проверят документ в мельчайших деталях, включая и содержимое, и вёрстку. В данной статье мы расскажем, каким образом справились с этой задачей.

Читать далее

Как удалить JavaScript из файлов PDF

Время на прочтение3 мин
Количество просмотров8.7K
Как известно, внутри файлов PDF можно размещать скрипты JavaScript, которые будут запускаться на исполнение в браузере. Например, если загрузить этот PDF, то вы увидите результат выполнения скрипта:



Это стандартная функция формата. Все разработчики браузеров знают, что PDF подобно HTML является активным контентом и может содержать исполняемые скрипты.
Читать дальше →

Сравнение сервисов для анализа документов AWS Textract, Azure Document Intelligence и Ripper Service от Технологики

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.6K

Бизнес все чаще и чаще предпочитают отдать искусственному интеллекту извлечение данных из документов: при таком подходе меньше ошибок и выше скорость обработки документов. И все чаще звучит вопрос — каким решением пользоваться и к какому подрядчику пойти за оказанием услуги?

Поэтому мы сделали сравнительный обзор двух популярных решений от лидеров рынка по обработке документов — AWS Textract, Microsoft Azure Document Intelligence и собственного решения Ripper Service. Сравнивали решения по нескольким основаниям: по производительности, по результатам извлечения значений из форм, а также по стоимости.

Надеемся, что данная статья будет полезна руководителям компаний, которые уже задумались о применении ИИ для массовой обработки документов.

Читать далее

Пишем чат-бот для работы с PDF

Время на прочтение7 мин
Количество просмотров10K

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

Читать далее

Автоматизируем проверку содержимого PDF-файлов с помощью pdf-test

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров6.3K

Многие сервисы в различных отраслях генерируют печатные формы счетов, отчётов и прочего в формате PDF. И, конечно, перед специалистами тестирования встаёт вопрос о проверке этих документов.

Обычно получается так, что сам факт генерации документа достаточно несложно покрыть автотестами, а вот проверку содержимого оставляют для ручного тестирования. Однако в подобных документах может быть много незаметных мест, различий и неточностей, которые человек может просто не заметить. Поэтому появляется необходимость проверку этих документов автоматизировать.

В этой статье мы познакомим вас с инструментом, который достаточно просто может закрыть потребность в проверке содержания PDF-файлов. Это инструмент с открытым исходным кодом — pdf-test. Он по сути является обёрткой pdfbox и позволяет из коробки использовать основные мэтчеры, не задумываясь о том, чтобы писать свои или о том, как именно парсить документ. Рассмотрим далее его применение на языке Java.

Читать далее

Создание PDF размером с Германию

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров27K

Сегодня утром, пролистывая ленты социальных сетей, я уже в который раз встретила утверждение, что у PDF-документа есть максимально допустимый размер.

Подобное утверждение появилось на просторах интернета ещё в 2007 году. Этот твит является характерным примером постов с аналогичным заявлением, в которых оно преподносится как твёрдый факт без каких-либо подтверждающих свидетельств или объяснений. То есть мы должны просто принять, что один PDF может покрыть лишь около половины площади Германии, и нам никак не объясняют, почему его магический предел составляет 381 километр.

Тут мне стало интересно – а создавал ли кто-нибудь такой большой PDF? Насколько это сложно? А можно ли сделать документ ещё больше?

Несколько лет назад я из праздного любопытства немного поигралась с PostScript, предшественником PDF, и это оказалось очень увлекательным! Ранее мне не доводилось изучать внутреннее устройство PDF, так что здесь у меня возник для этого хороший повод.

Приступим!
Читать дальше →

Dedoc: как автоматически извлечь из текстового документа всё и даже немного больше

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров7.9K

Привет, Хабр! 

Мы команда разработчиков Института Системного Программирования РАН, занимаемся Computer Vision в обработке электронных документов. Мы разработали open-source библиотеку dedoc, которая помогает разработчикам и дата-сайентистам в пару строк кода читать различные форматы текстовых документов и изображений с текстом, и далее приводить информацию к единой аккуратной структуре.

Читать далее

Акробата нет, но вы держитесь. Чем редактировать PDF?

Время на прочтение7 мин
Количество просмотров95K

Компания Adobe покинула российский рынок в марте 2022 года, лишив пользователей привычных инструментов для графического дизайна, редактирования фото и видео, веб-разработки. Одной из крупных потерь стал пакет программ для работы с документами формата PDF — Adobe Acrobat, поскольку, в отличие от программ для дизайна, они затрагивают максимально широкий круг пользователей. Это студенты и преподаватели, использующие учебные материалы, офисные работники из разных направлений бизнеса, сотрудники государственных организаций, работающие с документами, и обычные люди, которые оцифровывают личные бумаги для домашнего архива. Одним словом, трудно найти человека, который бы никогда не работал с файлами PDF.

C 2022 года все они оказались в ситуации, когда установить дистрибутив с официального сайта Adobe было невозможно, оплатить лицензию —  нельзя, продлить ее — тоже. Выход оставался один — искать альтернативы на российском рынке. Хорошая новость — такие варианты есть. И они ничуть не уступают международным продуктам — ни по качеству, ни по функциональности.

Читать далее

Как добавить фон в PDF-документ на языке C#

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3K

Фон отображается под текстом или изображениями на странице. Фон может быть как сплошным цветом, так и изображением. Фон можно выборочно применять к определенным страницам, диапазонам страниц или ко всем страницам документа. В этой статье я расскажу о том, как программно добавить цвет фона или изображение в PDF-документ на языке C# с помощью Free Spire.PDF for .NET.

Читать далее

Извлечение текста из файлов PDF при помощи Python

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров84K

▍ Введение


В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать дальше →

Ближайшие события

Преобразование markdown в pdf на Python

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров8.7K

Каждому, кто ходил извилистой тропкой автоматической генерации pdf из markdown файлов ведомы связанные с этой задачей пеньки решения: Pandoc, LaTex, wkhtmltopdf и т.п.

Хочу поделиться с сообществом новым (по крайней мере для меня) вариантом решения этой задачи в Python.

Этот вариант имеет следующие плюсы.

Читать далее

История FineReader: так создавалась легенда (часть II)

Время на прочтение10 мин
Количество просмотров5K

Мы продолжаем изучать летопись функционального развития легендарного редактора FineReader PDF. Первую часть 30-летней истории можно прочитать здесь. А сейчас перенесемся в середину нулевых. 

Читать далее

История FineReader: так создавалась легенда (часть I)

Время на прочтение9 мин
Количество просмотров8.8K

Не секрет, что многофункциональный редактор ContentReader PDF является технологическим наследником популярного решения компании ABBYY – FineReader PDF. После модификации исходного продукта его новую историю на российском рынке пишет Content AI. Между тем, легендарному редактору PDF в этом году исполнилось 30 лет. И это достойный повод, чтобы вспомнить, как все начиналось и как развивался продукт, ставший незаменимым инструментом для всех, кто работает с документами. 

Для полного погружения мы смогли найти ноутбук IBM ThinkPad T61 c Windows XP, установили на него все версии FineReader с 1 по 13 и сделали аутентичные скриншоты. Пристегнитесь, запускаем машину времени через три…два…один. 

Читать далее

Альтернативные утилиты для PDF

Время на прочтение4 мин
Количество просмотров17K


Помимо программ от Adobe есть много альтернативных специализированных библиотек и утилит для работы с PDF. Что характерно, зачастую опенсорсные инструменты даже удобнее, чем официальный* софт. Альтернативные ридеры/редакторы по функциональности сильно отличаются от Adobe. В свою очередь, программы Adobe сами отличаются от официальных спецификаций PDF.

*Примечание: программы Adobe не «официальные» в прямом смысле слова, потому что PDF является открытым и бесплатным стандартом ИСО.
Читать дальше →

Человек, который создал Adobe

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.8K


19 августа 2023 года ушёл из жизни Джон Уорнок — ученый, который стал успешным бизнесменом и основал IT-компанию, завоевавшую известность во всём мире. Выручка корпорации Adobe в 2022 году составила 17,6 млрд. долларов США, а с ее продуктами работают десятки миллионов пользователей в разных уголках земного шара. Причем название одного из этих продуктов уже давно стало нарицательным, по крайней мере, глагол «отфотошопить» можно без труда отыскать в некоторых современных словарях.
Читать дальше →

Как PDF изменил мир

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров12K

Нам сейчас трудно представить, но было время, когда документы для печати нельзя было создать и подготовить за считанные секунды. И вообще, раньше обмен документами был громоздким процессом, который включал в себя распечатку и физическую передачу из рук в руки. Но всё изменилось в 1993 году, когда Adobe Systems представила миру PDF (Portable Document Format) — революционно новый формат файлов, он упростил обмен документами и их архивирование.

Тридцать лет спустя PDF — популярный формат документов для всего: от налоговых форм до электронных книг и руководств пользователя. PDF изменило то, как пользователи создают, делятся и получают доступ к цифровым документам. Только в прошлом году пользователи открыли более 400 миллиардов PDF-файлов в продуктах Acrobat, а Adobe обработала более 8 миллиардов транзакций с электронными и цифровыми подписями. PDF стал неотъемлемой частью современного мира, оказав фундаментальное влияние на появление онлайн-печати.
Читать дальше →

Как использовать C# для разделения PDF документа

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.5K

PDF является широко используемым форматом электронных документов, но иногда мы хотим разделить большой PDF файл на несколько отдельных файлов для более удобного управления и обработки. В этой статье мы расскажем, как с помощью языка C# и Free Spire.PDF for .NET разбить PDF документ.

Читать далее