Pull to refresh

Comments 38

Валидатор бы еще от гугла хороший, эх.
UFO landed and left these words here
Да, это первое, что бросилось в глаза.
Видимо в скором времени они закроют и этот сервис. :)
UFO landed and left these words here
Да, мысль материальна как электрохимические взаимодействия в мозге. Мистифицировать здесь нечего.
Она еще материальна в том смысле, что один высказал, типа пошутил, второй задумался, а третий родил очередной закон типа «закрыть все интернеты страны, ибо это вредно».
UFO landed and left these words here
Может быть, этим парсером, наконец, заменят тот впечатляющий HTML-парсер, который имеет место в PHP сейчас.
UFO landed and left these words here
Возможно, мы говорим о разных вещах. Я говорю, в частности, о методе DOMDocument::loadHTML(). Что и как вы предлагаете в этом случае выбирать?
UFO landed and left these words here
Да, DOMDocument в части разбора и сохранения HTML-кода — кривая и по сути непригодная для сколь-нибудь серьёзного использования надстройка над libXML.

Tidy (даже абстрагируясь от того, что он редко бывает по умолчанию доступен на большинстве хостингов) для разбора HTML-кода не предназначен.

html5lib — чисто скриптовое решение, о недостатках скриптовых решений (главным образом что касается быстродействия) всем нам хорошо известно.

Достоинство Gumbo в том, что он написан на C (в отличие от Java, на котором написан канонический HTML5-парсер validator.nu, используемый в Firefox путём автоматического преобразования в C++) и потенциально может быть легко интегрирован в PHP (написанный на том же C) вместо существующего HTML-парсера.
UFO landed and left these words here
Для очистки я нашел для себя прекрасный ezyang/htmlpurifier
А чтобы что-то выдрать из кода есть phpQuery.
UFO landed and left these words here
С этим XPath вообще странная ситуация. Как ни посмотришь резюме веб-девелоперов, так у каждого второго значится «XSLT» в списке скиллов. А как пойдёт речь о выборке элемента из HTML документа, так про XPath вспоминают в последнюю очередь.
UFO landed and left these words here
Если прогнать через tidy, то получается вполне корректный XML документ.
UFO landed and left these words here
А в чем собственно проблема то?

Даже в браузере в FireBug можно XPath запускать типа $x("/html/body/title")
UFO landed and left these words here
В конце концов, имея такой инструмент, можно написать свое расширение и помочь миру!
Думаю, это лишь из соображений большей кроссплатформенности C, чем Go…
Это отлично, тем более что есть байндинги на Питон.
Я вот только не понял — библиотека вроде только html5 парсит. А как быть с более древними HTML 4.01 and XHTML? То-есть получается что применение библиотеки пока узко специализированное.
Грядет новая волна поделий начинающих «какеров».
Ждем высокоскоростные чекеры, кликеры, спаммеры и т.п. :)
UFO landed and left these words here
его писали на Си не для того, чтобы повысить скорость исполнения кода в десятки раз.
Простите мое невежество, а для чего тогда? Кроссплатформенность?
В оригинале немного иначе написано: скорость большая благодаря Си, но это не главное…

Execution speed. Gumbo gains some of this by virtue of being written in C, but it is not an important consideration for the intended use-case, and was not a major design factor.
Из этого все равно непонятно, зачем он написан именно на C.
Что бы можно было собрать его под любое устройство.
Sign up to leave a comment.

Articles