Большое спасибо за Ваш комментарий. Постараюсь постепенно исправить все неточности
Уж извините, но в статье огромное количество недопонимания и неточностей.
Самое основное, что в глаза бросается, и поломает ваш парсер на один чих:
1.
Во многих pdf'ах xref table, как и trailer вообще отсутствуют. Вместо них используется xref streams.
Спасибо, за это замечание. Честного говоря про этот момент ничего не нашел пока.
2.
Вторая группа и символ сообщают: существует ли объект на самом деле. 65535 f – объект не существует…
Если я правильно понял, то число здесь играет примерно ту же роль, что и второе число в описании объекта(после его номера)?
3.
stream может быть сжат не только flate'ом, но и lzw и еще парой специфичных кодировок контроллируемых ключем /Filter в stream dictionary…
Про этот факт я написал и даже указал на страницу в документации, где исчерпывающе описываются все возможные фильтры.
Что же касается сырости, то так оно и есть. Но на данном этапе и не было целью представить здесь готовый парсер. Это пока беглый обзор, о чем я так же в конце написал, а потому некоторые вопросы я здесь просто опустил. В противном случае у меня бы просто получился перевод документации
Здесь скорей было ошибкой попытка уместить все в одно и сразу…
На вскидку не вспомню названий библиотек. В основном не было всего того что мне нужно разом. То нельзя было получать данные постранично, то не вынималась логическая разметка(типа параграфов), то не было даже приблизительного позиционирования картинки относительно текста на странице, то нужный мне функционал был только в платной редакции и к тому же я не был уверен, что там есть все, что мне нужно.
В общем основательно посидев в гуугле меня все это стало сильно бесить, и я подумал, что во всем разберусь сам, да и опыт полезный на будущее…
Перечитал доки, Поправил. Еще раз спасибо.
Тоже сейчас поправлю
Спасибо, за это замечание. Честного говоря про этот момент ничего не нашел пока.
Если я правильно понял, то число здесь играет примерно ту же роль, что и второе число в описании объекта(после его номера)?
Про этот факт я написал и даже указал на страницу в документации, где исчерпывающе описываются все возможные фильтры.
Что же касается сырости, то так оно и есть. Но на данном этапе и не было целью представить здесь готовый парсер. Это пока беглый обзор, о чем я так же в конце написал, а потому некоторые вопросы я здесь просто опустил. В противном случае у меня бы просто получился перевод документации
Здесь скорей было ошибкой попытка уместить все в одно и сразу…
В общем основательно посидев в гуугле меня все это стало сильно бесить, и я подумал, что во всем разберусь сам, да и опыт полезный на будущее…
Просто, как и многие разработчики они решили внести максимум функционала и местами получили кашу.
Если я правильно понял это библиотека для генерации PDF, а я писал про парсинг.