Comments 13
Нуууу мне с PDF доводилось работать пока только в PHP, но по существу одно сказать смогу точно — никто кроме Вам не сможет перенести статью в блог Java ))
Первая таблица, первая же строка: у iText время меньше, но зеленым отмечен почему-то отмечен JPOD. Несправедливо. :)
Вообще непонятно зачем в сравнение добавлены «часы», понятно же что это не актуально. Из-за этого результаты смешиваются в кашу. Спасибо хоть цветом разделено, только по нему и можно ориентироваться нормально
Empty у JPOD 2 а в итого 1
хотя в целом и не влияет на результат, но вкрадывается сомнение, что «промежуточный сервер» имел место (кто не с Украины поясняю — «промежуточный сервер» якобы использовался для подтасовки результатов на выборах)
ЗЫ а за статью сеньк. исследования всегда позезны
ЗЫ2 еще бы гденить архив с тетсовыми приложениями, чтобы желающие могли погонять на своих выборках. ну и, возможно, понять проблемы в некоторых пакетах
хотя в целом и не влияет на результат, но вкрадывается сомнение, что «промежуточный сервер» имел место (кто не с Украины поясняю — «промежуточный сервер» якобы использовался для подтасовки результатов на выборах)
ЗЫ а за статью сеньк. исследования всегда позезны
ЗЫ2 еще бы гденить архив с тетсовыми приложениями, чтобы желающие могли погонять на своих выборках. ну и, возможно, понять проблемы в некоторых пакетах
Виноват. Составлял из отдельных таблиц :)
Пользуемся iText'ом — нравится
По поводу iText'а и не-английских букв. У нас весь вывод на немецком — никаких проблем. Локализацию нужно задать, по всей видимости
а можно привести данные по использованию кучи? и не было ли замечено утечек памяти.
в подобных либах это часто является больным местом
в подобных либах это часто является больным местом
Анализ средств парсинга проведен вполне грамотно, но все-таки стоило подчеркнуть не универсальность выводов, т.к. тесты проводились на задаче, специфика которой от читателя осталась скрытой, а между тем, цель публикации, по первым фразам, звучит чрезвычайно многобещающе – «обнаружить лучший pdf-парсер». Любопытства ради, я скачал последнюю версию библиотек JPod и попробовал распарсить pdf-файл, на котором ошибался PDFBOX как раз в год этой публикации (Как меня заверил Andreas Lehmkühler — организатор, вдохновитель и один из самых активных участников комьюнити PDFBOX,— ошибка уже в версии pdfbox 1.0.0 была устранена) — JPod же «спотыкается» до сих пор:
Т.е. то, что Вам, в Вашем конкретном случае, показалось лучшим выбором, может совсем не являться таковым для другой специфической задачи.строка в pdf-source:
IOM DIVISION 1523788 456934 1980722 23026421 + 114474 3147531 27408756
JPod parsing:
IOM DIVISION 1523788 4569341 980722 23026421 27408756 3147531 114474 +
Sign up to leave a comment.
Parse it!