Pull to refresh

Comments 7

буквально две недели назад очень было нужно.
не подскажите, если PDF запороленная — сможет вытащить или сначала придется отдельно делать unlock?
это имеет значение когда в очереди сразу по 20-30 файлов.
Библиотека конечно неплохая но вот как вы сказали лицензия все портит. Хотя было время когда лицензия не так кусалась, и говорят можно где то в сети найти еще исходники под не суровой лицензией, но там не так все просто. Никогда не понимал зачем нужен такой формат как pdf без нормального api, манипуляция которым для разработчика превращается в сущий ад. Раньше что бы просто извлечь текст нужно было так извернутся да и то никто не гарантировал что при некоторых шрифтах вам удастся удачно достать текст с пробелами итд.
Я проверял возможность использования старой версии (последняя версия не под суровой лицензией — 4.2.0 вроде), но там сильно меньше возможностей (например того, что я показывал в статье, там еще нет). Но логика распространения ныне такая: либо выставляйте код, либо покупайте коммерческую версию (1000 евро — desktop или 1700 сервер).
А вообще на данный момент с открытыми библиотеками для работы с PDF — беда. Видать, никто не хочет разбираться в ~1300 страницах спецификации PDF и писать open-source библиотеку
В начале года была задача по конвертации pdf в epub. Использовал библиотеку Aspose, хотя до этого использовал только iTextSharp (правда, без тех возможностей, что описаны в статье).
Столкнулся с следующими проблемами:
1. как забрать табличные данные
2. как отделить перенос слова от дефиса в составном слове (пример, как-нибудь).
3. нумерация
Насчет дефиса — мне надо было сохранять форматирование по строчкам и их я оставлял как есть, а с таблицами и нумерацией пока не подружился.
Для простого текстового формата, Adobe явно перемудрил. Bruno Lowagie конечно проделал большую работу, но зачем всё так усложнять? Мне проще понять структуру PDFa, чем изучить API iTexta которым она обёрнута.
Что делать когда поверх текста нарисована аннотация или буквы с наклоном или по спирали, или в документе несколько слоёв? Я тоже решал подобную задачу — найти текст в документе, и выделить его цветом. У меня, получилось как-то так, найденый текст выделен жёлтеньким. Apitron.PDF.Rasterizer
Sign up to leave a comment.

Articles