FedyuninV Jun 9 2014 at 08:24

IText: вытаскиваем текст из PDF

5 min

66K

Java * PDF

From sandbox

+13

Comments 7

heroino Jun 9 2014 at 09:01

буквально две недели назад очень было нужно.
не подскажите, если PDF запороленная — сможет вытащить или сначала придется отдельно делать unlock?
это имеет значение когда в очереди сразу по 20-30 файлов.

FedyuninV Jun 9 2014 at 09:10

Просто так не сможет. Но если пароль известен, то на каждый способ построения у PdfReader есть конструктор, принимающий ownerPassword
api.itextpdf.com/itext/com/itextpdf/text/pdf/PdfReader.html

vba Jun 10 2014 at 06:42

Библиотека конечно неплохая но вот как вы сказали лицензия все портит. Хотя было время когда лицензия не так кусалась, и говорят можно где то в сети найти еще исходники под не суровой лицензией, но там не так все просто. Никогда не понимал зачем нужен такой формат как pdf без нормального api, манипуляция которым для разработчика превращается в сущий ад. Раньше что бы просто извлечь текст нужно было так извернутся да и то никто не гарантировал что при некоторых шрифтах вам удастся удачно достать текст с пробелами итд.

FedyuninV Jun 10 2014 at 08:05

Я проверял возможность использования старой версии (последняя версия не под суровой лицензией — 4.2.0 вроде), но там сильно меньше возможностей (например того, что я показывал в статье, там еще нет). Но логика распространения ныне такая: либо выставляйте код, либо покупайте коммерческую версию (1000 евро — desktop или 1700 сервер).
А вообще на данный момент с открытыми библиотеками для работы с PDF — беда. Видать, никто не хочет разбираться в ~1300 страницах спецификации PDF и писать open-source библиотеку

capella Jun 10 2014 at 19:05

В начале года была задача по конвертации pdf в epub. Использовал библиотеку Aspose, хотя до этого использовал только iTextSharp (правда, без тех возможностей, что описаны в статье).
Столкнулся с следующими проблемами:
1. как забрать табличные данные
2. как отделить перенос слова от дефиса в составном слове (пример, как-нибудь).
3. нумерация

FedyuninV Jun 11 2014 at 18:43

Насчет дефиса — мне надо было сохранять форматирование по строчкам и их я оставлял как есть, а с таблицами и нумерацией пока не подружился.

Apitron Aug 19 2014 at 09:46

Для простого текстового формата, Adobe явно перемудрил. Bruno Lowagie конечно проделал большую работу, но зачем всё так усложнять? Мне проще понять структуру PDFa, чем изучить API iTexta которым она обёрнута.
Что делать когда поверх текста нарисована аннотация или буквы с наклоном или по спирали, или в документе несколько слоёв? Я тоже решал подобную задачу — найти текст в документе, и выделить его цветом. У меня, получилось как-то так, найденый текст выделен жёлтеньким. Apitron.PDF.Rasterizer