Pull to refresh

Документация по Grab — библиотеке для парсинга сайтов

Reading time 2 min
Views 33K
Я ранее уже рассказывал на хабре о Grab — библиотеке для парсинга сайтов и о Spider — асинхронном модуле для парсинга. Рад сообщить, что я наконец-то дописал документацию по Grab. Я решил писать всё на русском языке т.к. на английском языке мне труднее выражать мысли. На деле писанины получилось гораздо больше, чем представлялось в начале, но я таки описал практически все функции библиотеки. Я решил просто вставить сюда, оглавление, кликайте на интересный раздел и читайте о возможностях Grab:



Кстати, HTML-код оглавления я подготовал скриптом с использованием Grab:

# coding: utf-8
from grab import Grab
from lxml.html import tostring

g = Grab()
g.go('http://grablib.org/docs/')
g.tree.make_links_absolute('http://grablib.org/docs')
elem = g.xpath(u'//h3[text()="Руководство пользователя"]/following-sibling::ul[1]')
toc = tostring(elem, encoding='utf-8')
print toc


Официальный сайт библиотеки grab: grablib.org
Вопросы по использованию grab писать лучше не мне в skype/jabber, а в майл-лист: groups.google.com/group/python-grab
Также напоминаю, что мы (GrabLab) занимаемся парсингом сайтов на заказ, если вам нужно собрать и обработать данные — обращайтесь.

Далее я планирую заняться документированием асинхронного spider модуля.
Tags:
Hubs:
+67
Comments 57
Comments Comments 57

Articles