Comments / Profile of SadBubble / Habr

Уж извините, но в статье огромное количество недопонимания и неточностей.
Самое основное, что в глаза бросается, и поломает ваш парсер на один чих:
1.
Во многих pdf'ах xref table, как и trailer вообще отсутствуют. Вместо них используется xref streams.

Спасибо, за это замечание. Честного говоря про этот момент ничего не нашел пока.

2.
Вторая группа и символ сообщают: существует ли объект на самом деле. 65535 f – объект не существует…

Если я правильно понял, то число здесь играет примерно ту же роль, что и второе число в описании объекта(после его номера)?

3.
stream может быть сжат не только flate'ом, но и lzw и еще парой специфичных кодировок контроллируемых ключем /Filter в stream dictionary…

Про этот факт я написал и даже указал на страницу в документации, где исчерпывающе описываются все возможные фильтры.

Что же касается сырости, то так оно и есть. Но на данном этапе и не было целью представить здесь готовый парсер. Это пока беглый обзор, о чем я так же в конце написал, а потому некоторые вопросы я здесь просто опустил. В противном случае у меня бы просто получился перевод документации

Здесь скорей было ошибкой попытка уместить все в одно и сразу…

Look

По колено в PDF. PHP парсер с плюшками

SadBubble Mar 29 2012 at 12:00

На вскидку не вспомню названий библиотек. В основном не было всего того что мне нужно разом. То нельзя было получать данные постранично, то не вынималась логическая разметка(типа параграфов), то не было даже приблизительного позиционирования картинки относительно текста на странице, то нужный мне функционал был только в платной редакции и к тому же я не был уверен, что там есть все, что мне нужно.
В общем основательно посидев в гуугле меня все это стало сильно бесить, и я подумал, что во всем разберусь сам, да и опыт полезный на будущее…

Look

По колено в PDF. PHP парсер с плюшками

SadBubble Mar 28 2012 at 12:40

В формате PDF много лишнего, наверное сами разрабы не понимают что это такое…

Просто, как и многие разработчики они решили внести максимум функционала и местами получили кашу.

Look

По колено в PDF. PHP парсер с плюшками

SadBubble Mar 28 2012 at 12:37

А можно конкретней, чем например не подошло: ru2.php.net/manual/ru/book.pdf.php?

Если я правильно понял это библиотека для генерации PDF, а я писал про парсинг.

Look