Comments 5
Выводы
Особой практической ценности в статье нет.
С одной стороны много пропущенных ссылок, с другой стороны среди пропущенных много рекламных. С одной стороны парсер плоховато работает, с другой стороны он удобен и прост. С одной стороны не вся статика грузится, с другой стороны чаще всего узким местом бывает не фротнэнд, а база данных и бекэнд.
Хотелось протестировать — протестировал и счастлив. Вас порадовал, тоже хорошо.
Работают почти одинаково плохо. Какой смысл выбирать из молотков тот, что бьет по пальцу менее болезненно?
Хотелось бы увидеть, какие ссылки парсеры игнорируют?
Если удастся выделить класс таких ссылок, то можно улучшить работу парсеров.
Здравствуйте, спасибо за вопрос. Логи доступны, узнать ответ несложно.
Так для сайта habrahabr.ru пропущена в основном реклама и статистика: https://docs.google.com/spreadsheets/d/1FqgnkRm4gYrWUN9bBCEPvVo0mdi5lQl_a3mv1wY7tko/edit?usp=sharing
Hello,
First thanks for this great comparison of Parsers! I don't read russian so I read it through translation tools (I hope I didn't misunderstand things)
As a JMeter commiter I wanted to clarify some notes from the release notes of 3.0.
What has been improved in 3.0 is:
- the connection simulation
- the throughput of resources downloads
- The parsing of CSS resources which didn't exist before
We never pretended that we downloaded what a browser does.
We always write "JMeter is not a browser".
We don't download any JS loaded resources and will never do because we're not a browser.
Besides, from a Load Testing perspective, all resources that hit 3rd party servers (yandex, google analytics, ....) are not useful, we only download resources that match a regular expression that you enter.
Now your results are very interesting and I highly encourage you to report:
- To Jodd (http://jodd.org/) a bug on the difference between downloaded resources compared to JSOUP
- To report to JMeter the recursivity issue that you faced, with an example
Of course any patch improving JMeter is very welcome.
Regards
Philippe M.
philmdot
Выбираем html-парсер для Apache.JMeter