skorn Apr 12 2009 at 13:05

Parse it!

4 min

8.1K

Java *

+38

Comments 13

Assargin Apr 12 2009 at 15:24

Нуууу мне с PDF доводилось работать пока только в PHP, но по существу одно сказать смогу точно — никто кроме Вам не сможет перенести статью в блог Java ))

Dragonizer Apr 12 2009 at 20:35

Первая таблица, первая же строка: у iText время меньше, но зеленым отмечен почему-то отмечен JPOD. Несправедливо. :)

nooze Apr 12 2009 at 20:42

Вообще непонятно зачем в сравнение добавлены «часы», понятно же что это не актуально. Из-за этого результаты смешиваются в кашу. Спасибо хоть цветом разделено, только по нему и можно ориентироваться нормально

nooze Apr 12 2009 at 20:43

* «часы» = «минуты»

skorn Apr 12 2009 at 22:47

Было там время с минутами, а потому хотелось выдержать единый формат.

nooze Apr 13 2009 at 07:32

Вместо 01:10.983 можно было написать 70.983 (:

onk Apr 12 2009 at 21:00

Empty у JPOD 2 а в итого 1
хотя в целом и не влияет на результат, но вкрадывается сомнение, что «промежуточный сервер» имел место (кто не с Украины поясняю — «промежуточный сервер» якобы использовался для подтасовки результатов на выборах)

ЗЫ а за статью сеньк. исследования всегда позезны
ЗЫ2 еще бы гденить архив с тетсовыми приложениями, чтобы желающие могли погонять на своих выборках. ну и, возможно, понять проблемы в некоторых пакетах

skorn Apr 12 2009 at 22:32

Виноват. Составлял из отдельных таблиц :)

Lucky_spb Apr 13 2009 at 09:57

Пользуемся iText'ом — нравится

Lucky_spb Apr 13 2009 at 09:58

По поводу iText'а и не-английских букв. У нас весь вывод на немецком — никаких проблем. Локализацию нужно задать, по всей видимости

trix Apr 14 2009 at 19:43

а можно привести данные по использованию кучи? и не было ли замечено утечек памяти.
в подобных либах это часто является больным местом

skorn Apr 14 2009 at 19:49

Сорри, данной инфы нет

nailer Sep 3 2017 at 14:55

Анализ средств парсинга проведен вполне грамотно, но все-таки стоило подчеркнуть не универсальность выводов, т.к. тесты проводились на задаче, специфика которой от читателя осталась скрытой, а между тем, цель публикации, по первым фразам, звучит чрезвычайно многобещающе – «обнаружить лучший pdf-парсер». Любопытства ради, я скачал последнюю версию библиотек JPod и попробовал распарсить pdf-файл, на котором ошибался PDFBOX как раз в год этой публикации (Как меня заверил Andreas Lehmkühler — организатор, вдохновитель и один из самых активных участников комьюнити PDFBOX,— ошибка уже в версии pdfbox 1.0.0 была устранена) — JPod же «спотыкается» до сих пор:

строка в pdf-source: IOM DIVISION 1523788 456934 1980722 23026421 + 114474 3147531 27408756 JPod parsing: IOM DIVISION 1523788 4569341 980722 23026421 27408756 3147531 114474 +

Т.е. то, что Вам, в Вашем конкретном случае, показалось лучшим выбором, может совсем не являться таковым для другой специфической задачи.