Comments 38
Валидатор бы еще от гугла хороший, эх.
Забавно что выложили на github, а не на code.google.com :)
Может быть, этим парсером, наконец, заменят тот впечатляющий HTML-парсер, который имеет место в PHP сейчас.
UFO just landed and posted this here
Возможно, мы говорим о разных вещах. Я говорю, в частности, о методе DOMDocument::loadHTML(). Что и как вы предлагаете в этом случае выбирать?
UFO just landed and posted this here
Да, DOMDocument в части разбора и сохранения HTML-кода — кривая и по сути непригодная для сколь-нибудь серьёзного использования надстройка над libXML.
Tidy (даже абстрагируясь от того, что он редко бывает по умолчанию доступен на большинстве хостингов) для разбора HTML-кода не предназначен.
html5lib — чисто скриптовое решение, о недостатках скриптовых решений (главным образом что касается быстродействия) всем нам хорошо известно.
Достоинство Gumbo в том, что он написан на C (в отличие от Java, на котором написан канонический HTML5-парсер validator.nu, используемый в Firefox путём автоматического преобразования в C++) и потенциально может быть легко интегрирован в PHP (написанный на том же C) вместо существующего HTML-парсера.
Tidy (даже абстрагируясь от того, что он редко бывает по умолчанию доступен на большинстве хостингов) для разбора HTML-кода не предназначен.
html5lib — чисто скриптовое решение, о недостатках скриптовых решений (главным образом что касается быстродействия) всем нам хорошо известно.
Достоинство Gumbo в том, что он написан на C (в отличие от Java, на котором написан канонический HTML5-парсер validator.nu, используемый в Firefox путём автоматического преобразования в C++) и потенциально может быть легко интегрирован в PHP (написанный на том же C) вместо существующего HTML-парсера.
UFO just landed and posted this here
Для очистки я нашел для себя прекрасный ezyang/htmlpurifier
А чтобы что-то выдрать из кода есть phpQuery.
А чтобы что-то выдрать из кода есть phpQuery.
В конце концов, имея такой инструмент, можно написать свое расширение и помочь миру!
Странно, что не на Golang.
Это отлично, тем более что есть байндинги на Питон.
Я вот только не понял — библиотека вроде только html5 парсит. А как быть с более древними HTML 4.01 and XHTML? То-есть получается что применение библиотеки пока узко специализированное.
Я вот только не понял — библиотека вроде только html5 парсит. А как быть с более древними HTML 4.01 and XHTML? То-есть получается что применение библиотеки пока узко специализированное.
Грядет новая волна поделий начинающих «какеров».
Ждем высокоскоростные чекеры, кликеры, спаммеры и т.п. :)
Ждем высокоскоростные чекеры, кликеры, спаммеры и т.п. :)
его писали на Си не для того, чтобы повысить скорость исполнения кода в десятки раз.Простите мое невежество, а для чего тогда? Кроссплатформенность?
Никто не хочет его добавить к бенчмарку habrahabr.ru/post/163979/?
Sign up to leave a comment.
Google выпустила парсер HTML5 на чистом Си