pingu Mar 9 2011 at 06:43

Простая библиотека для парсинга HTML

2 min

10K

Python*

+49

Comments 27

Joes Mar 9 2011 at 07:14

Чем лучше packages.python.org/pyquery/?

maddogg Mar 9 2011 at 07:19

вот тоже очень интересует

pingu Mar 9 2011 at 07:25

Как минимум в pyquery нет конвертации в другой язык разметки. И не уверен насчет .get. Вообще, когда писалась библиотека из распространненых парсеров были только BeautifulSoup и lxml, первый довольно кривой, для второго и была написана эта обертка. Плюс, субъективно эта библиотека проще.

pingu Mar 9 2011 at 08:03

Плюс, как мне показалось pyquery больше направлен на модификацию html, а leaf на сам парсинг.

rhangelxs Mar 9 2011 at 08:34

А сейчас реализована конвертация в markdown?
Было бы интересно получить функцию наподобие «упростить форматирование» из эвернота.

pingu Mar 9 2011 at 08:36

Сейчас в планах есть написать готовые конверторы для популярных языков разметки, а пока можно написать самому. Там получаются очень простые конверторы. Если сильно нужно, могу сегодня сделать markdown.

rhangelxs Mar 9 2011 at 08:48

Просто я не уверен, что можно так в лоб перегонять. Сходу только вложенные p и списки на ум приходят. В таком случае нужно поверх написать prettify-катор. Да и со стилями опять же могут быть проблемы.
Те конвертеры которые я видел не делают ничего хорошого из реальной страницы.
Библиотека однозначно удобная по синтаксису.

pingu Mar 9 2011 at 08:54

Ну, если в странице болд отображается через:
<p class="text-bold">blah</p>
то такой текст довольно сложно сконвертировать. В остальных же случаях все более-менее нормально.

frol Mar 9 2011 at 10:28

Буквально 3 дня назад писал конвертер html -> bbcode, учесть всё и везде не так просто, буду следить за развитием этого проекта. Спасибо за наводку.

PS Вот например минимум 3 способа отцентровать текст в html:

<div align="center">

<div style="text-align: center">

<center>

pingu Mar 9 2011 at 12:01

Только вот вроде в markdown нет ни одного такого способа :3
Плюс как правило стили учитывать не обязательно. Главное получить читабельный текст с форматированием, а не всю верстку.

frol Mar 9 2011 at 12:07

Eсли нужен только текст: text = re.sub('<.+?>', '', html)
Я считаю что нужно максимально приблизить вёрстку к оригиналу, хотя я согласен, что случаи бывают разные.

pingu Mar 9 2011 at 15:29

Ну, верстка будет такой же как и в оригинале, а стили это уже немного другое. Как и расположение элементов (align, etc)

muslimov Mar 9 2011 at 07:28

Ты конечно молодец,
но такое уже есть!

UFO landed and left these words here

Vas3K Mar 9 2011 at 07:46

Это не «велосипед», это как-бы такой толстый запрос на сравнение по функционалу или производительности, чтобы определиться переходить или нет. Ну я так считаю.

pingu Mar 9 2011 at 08:38

Производительность такая же, как у lxml, там оверхед очень маленький.

Joes Mar 9 2011 at 08:38

Причем тут не нужно? Есть две обертки поверх lxml, интересно их сравнение, а так же что сподвигло автора написать свою.

pingu Mar 9 2011 at 08:39

Мне кажется я уже ответил на это выше

Bkmz Mar 9 2011 at 08:39

Не знаю в чем проблема. Если нужно просты выдергивать значения, если сделать регепс, то он будет работать. Данные штуки, скорее всего, для тех кто не понимает регепсы. Ну я так считаю, если не прав, поправьте…

pingu Mar 9 2011 at 08:51

Вообще, парсить различные языки разметки, такие как html регекспами считается плохим тоном, т.к. такие парсеры очень легко ломаются при изменении страницы.
Также, парсер сделанный для определенной разметки будет работать быстрее, чем для любой.
Да и при использовании html парсеров код получается красивей, чище и более легко поддерживается.

wRAR Mar 10 2011 at 09:03

stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

Angelmoon Mar 9 2011 at 08:43

Да ладно вам, нормальная библиотека. Она решает свою конкретную задачу.

Не в качестве альтернативы, а как расширение кругозора — есть еще Scrapy. Он тоже вполне неплох для парсинга

seriyPS Mar 9 2011 at 13:27

Scrapy это немного из другой оперы))) Ничто не мешает использовать этот Leaf внутри Scrapy. А Scrapy он в основном именно как платформа для скачивания страничек. Чем ты их будешь парсить ему все равно. А так да, Scrapy обалденный ^_^.

wRAR Mar 10 2011 at 09:05

scrapy использует для парсинга libxml2 либо lxml.

zxmd Mar 9 2011 at 13:21

Обертка для обертки, но в любом случае на заметку возьмем.

seriyPS Mar 9 2011 at 14:22

По поводу генерации XML в другие языки разметки — тут лаконичнее смотрелся бы XSLT. По крайней мере он больше контроля дает. К примеру для генерации bb кодов я бы такого плана шаблон наваял вместо вашего примера:

<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version = "1.0"	xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
	<xsl:template match="br">
<xsl:text>
</xsl:text>
	</xsl:template>

	<xsl:template match="a[@href]">[url=<xsl:value-of select="@href"/>]<xsl:apply-templates />[/url]</xsl:template>
</xsl:stylesheet>

Возможно выглядит неубедительно, но при увеличении количества правил общая сложность понимания почти не растет. Я, например, для эксперимента дописал шаблоны для превращения ul/li и ol/li в Markdown * и #, заголовков в "==", b,i,u тегов в их BB-code аналоги и защиту от script инъекций — уложился в ~50 строк.

pingu Mar 9 2011 at 15:34

не думаю что тут получится сильно больше. зато python читаемее xslt, как по мне.