Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
А можно конкретней, чем например не подошло: ru2.php.net/manual/ru/book.pdf.php?
Вторая группа и символ сообщают: существует ли объект на самом деле. 65535 f – объект не существует…Это не так. Второе число — это generation. Если pdf обновлялся, он может быть отличен от 0, а 65535 — это зарезервированное значение для 0го объекта. Более того, в коде парсера xref table присутствует ошибка, из-за которой в таблице окажутся удаленные объекты (для некоторых pdf'ов).
Уж извините, но в статье огромное количество недопонимания и неточностей.
Самое основное, что в глаза бросается, и поломает ваш парсер на один чих:
1.
Во многих pdf'ах xref table, как и trailer вообще отсутствуют. Вместо них используется xref streams.
2.
Вторая группа и символ сообщают: существует ли объект на самом деле. 65535 f – объект не существует…
3.
stream может быть сжат не только flate'ом, но и lzw и еще парой специфичных кодировок контроллируемых ключем /Filter в stream dictionary…
Честного говоря про этот момент ничего не нашел пока.Секция 7.5.8 эдобовского референса.
Если я правильно понял, то число здесь играет примерно ту же роль, что и второе число в описании объекта(после его номера)?Это оно и есть.
Про этот факт я написал и даже указал на страницу в документации, где исчерпывающе описываются все возможные фильтры.Извиняюсь, не обратил внимания.
По колено в PDF. PHP парсер с плюшками