itforge Mar 5 2012 at 10:27

Документация по Grab — библиотеке для парсинга сайтов

2 min

34K

Python *

+67

Comments 57

istinspring Mar 5 2012 at 11:07

хорошая библиотека ) уже достаточно давно с ней успешно работаю.
на данный момент аналоги с подобным функционалом мне неизвестны.

kay Mar 5 2012 at 11:30

Тоже на этом специализируюсь. Не знал, что специальные либы существуют. Мой инструмент — regexp =)

slav0nic Mar 5 2012 at 11:37

Примите мои соболезнования…

mrjj Mar 5 2012 at 11:40

Ага, к тому же учитывая существование специализированных парсеров вроде pyparsing

itforge Mar 5 2012 at 11:44

Честно говоря, иногда подумываю написать обёртку для регекспов, какой-нить облегчённый xpath. Просто бывает, когда надо парсить миллионы страниц, xpath слишком медленный, вернее само построение DOM-дерева.

catlion Mar 5 2012 at 12:42

xpath подразумевает наличие дерева. Может быть, обертка нужна не для регекспов, а для SAX?

itforge Mar 5 2012 at 12:52

SAX непременим для разбора невалидных XML. Все сайты невалидные. Чтобы получить валидный XML из битого HTML, нужно затратить усилия, сравнимые с построением DOM-дерева. Поправьте, если я ошибаюсь.

catlion Mar 5 2012 at 13:37

А та же ситуация будет ведь и для регекспов и, тем более, для xpath? Честно говоря, вам должно быть виднее.

В дотнете есть библиотека HtmlAgilityPack, там, например, незакрытые теги HTML4 (даже br) увеличивают степень вложенности следующих за ними. Это к вопросу о затрачиваемых усилиях.

itforge Mar 5 2012 at 13:52

А что регекспы? Регекспу /<div[^>]*>([^<]+) абсоюлтно пофиг, какой документ, валидный или нет, он просто ищет текст внутри div-тэга.

Вся сложность с регекспами в том, что очень сложно описать вложенные тэги. Банальное xpath выражение "//div/div" с помощью регкспов описывается монстрообразным (не проверял):

<div[^>]*>\s*<div[^>]*>(.(?!))+\s*

alekciy Mar 6 2012 at 06:32

Написание своей обертки для xpath приведет к написанию… xpath! Причем скорее всего менее расширяемого и, возможно, более тормозного. Так зачем?

Есть отличный инструмент в виде xpath, есть различные библиотеки реализующие работу с ним, смысла изобретать своё нет и в данном случае, имхо, разумнее масштабироваться горизонтально. И тогда не важно, что конкретный разбор идет долго (что делать, за гибкость xpath нужно платить), главное разбросать это на Х параллельных работ.

itforge Mar 6 2012 at 07:07

> Написание своей обертки для xpath приведет к написанию… xpath! Причем скорее всего менее расширяемого и, возможно, более тормозного. Так зачем?

Регекспы работают очень быстро. Естественно не нужно заново изобретать xpath, достаточно очень простого синтаксиса, чтобы описать пару самых распространнённых случаев:
1) найти тэг с заданным class/id
2) найти тэг с заданным class/id, у родителя которого заданный class2/id2
3) У тэга из 1 и 2 получить аттрибут какой-нибудь
4) У тэга из 1 и 2 получить содержимое.

Не нужна расширяемость, нужна быстрая реализация простых паттернов.

Горизонтальное масштабирование хорошо, когда есть под рукой облако, желательно бесплатное :) В этом направлении я тоже копаю постепенно, например, щас в grab:spider можно разбить выполнение задачи по ядрам, но особого прироста это не даёт, двукратное ускорение на моём четырёхядерном-athlon. Да и ещё оказалось, что модуль multiprocessing не шибко удобная штука, распараллеливание по сети в нём вроде как вообще нету. Думаю посмотреть в сторону какого-нить pyro

dvska Mar 6 2012 at 08:19

celery, execnet

itforge Mar 6 2012 at 08:47

dispy, delegate, forkmap (original), forkmap (modified), ppmap, POSH, pp, pprocess, processing, PyCSP, remoteD, batchlib, Celery, Deap, disco, dispy, DistributedPython, exec_proxy, execnet, IPython, jug, mpi4py, NetWorkSpaces, PaPy, papyros, pp, PyLinda, pyMPI, pypar, pyPastSet, pypvm, pynpvm, Pyro, rthread, ScientificPython, seppo, Star-P for Python, superpy, Google App Engine, PiCloud, StarCluster, Ganga, Minimum intrusion Grid, PEG, pyGlobus

:)

alekciy Mar 6 2012 at 11:46

Приведенный примеры действительно хорошо партируются на регекспы и работают быстрее (у меня в среднем где-то в раз 8-10 работали). Тут не поспоришь. Только вот чаще всего на практике они полезны в очень небольшом спектре задач. А для парсинга чаще всего как раз нужен механизм хитрых вытаскиваний которых на регекспах 1) ужасны (в плане вида и сложности, как следствие сложность супорта такого кода); 2) содержат ошибки которые могут проявится не сразу.

Под масштабированием я понимаю раскидку задачи по нескольким хостам. Не важно, как долго страница грузиться на отдельном хосте, важно, что таких хостов много и в сумме они могут достаточно быстро лить обработанные данные на агрегирующий сервер (который по сути выполнят роль менеджера задач + БД для сохранения результатов).

Лично я для парсера выбрал PHP. Можно накупить дешевого харед хостинга. Загрузку и обработку данных можно делать на них, агрегирующий сервер может быть уже любым. В виде плюшек получаем: «скрытый» парсер (т.е. «снаружи» агрегирующий сервер не видно, а хосты шаред хостинга легко добавляются/удаляются, так что IP адрес самого парсера не палится и не может быть забанен), возможность быстрого горизонтального масштабирования.

itforge Mar 6 2012 at 12:29

Я думал, на php шаред-хостингах обычно обрубают взимодействие с сетью.

alekciy Mar 6 2012 at 14:31

Извиняюсь, но тогда нахрена такой хостинг нужен? С него же тогда даже банально курс валют не получить, RSS не прочесть и ни какой внешний API в духе вконтакте или твиттера не получить. Так что нет, ни чего не отрубают, curl (или другие механизмы достучаться из скрипта наружу) есть на многих. А у кого нет, это не хостинги.

А отрубают за спам, за большую нагрузку на БД ну и в целом по ситуации. Если не наглеть, то жить вполне себе в их условиях можно.

itforge Mar 5 2012 at 11:46

Ну, вообще, их не одна. Например, scrapy.org очень популярен.

catlion Mar 5 2012 at 12:03

Вам нужно ознакомиться с этим документом: stackoverflow.com/a/1732454/55209

kay Mar 5 2012 at 12:08

Ну вот, сколько лет на регекспах парсил и даже не задумывался о чем-то другом, а тут вот оно как в мире.

catlion Mar 5 2012 at 12:37

Вполне возможно, что под парсингом вы подразумеваете какую-нибудь более узкую задачу.

Универсальную библиотеку для парсинга HTML на регэкспах сделать впринципе невозможно. То есть, если у вас стоит задача в рамках одного проекта извлекать информацию из разнородных документов, то вам нужно что-то более для этого приспособленное.

Если же нужно из пары страниц с известной структурой вытащить, например, все ссылки, то регекспами пользоваться можно и иногда даже нужно.

catlion Mar 5 2012 at 12:38

А если эта известная структура представляет из себя валидный XHTML, то обычно лучше с ней работать как с XML.

loststylus Mar 6 2012 at 09:04

Я надеюсь, что вы пошутили. Если же нет, то вот ссылка на stackoverflow, которая сразу же вспомнилась в связи с вашим ответом.

itforge Mar 6 2012 at 09:06

Баян :) В смысле, эта ссылка на два коммента выше уже запощщена.

loststylus Mar 6 2012 at 09:08

Упс :)

UFO landed and left these words here

itforge Mar 5 2012 at 11:45

grablib.org/docs/grab/dom.html#xpath — используйте метод `xpath_list` или `css_list`

UFO landed and left these words here

itforge Mar 5 2012 at 12:08

Просто намного чаще нужен один элемент, так что я решил более короткое имя зарезервировать для получения первого элемента из выборки.

Pavel_Osipov Mar 5 2012 at 11:46

Хорошая вещь!
В результате её изучения Убунта теперь каждое включение приветствует меня свежим анекдотом с баша

Zlobober Mar 5 2012 at 12:13

Свежим? Анекдотом? С баша? Не смешите.

Pavel_Osipov Mar 5 2012 at 12:23

Ну для меня свежий. Хотя смысл скорее — свежедоставленный

loststylus Mar 6 2012 at 09:10

А, по-моему, последняя цитата там очень даже:

<DevXen:> Today I was at the store and saw a Darth Vader action figure that said «Choking Hazard.» It was great.

bash.org/?latest

UFO landed and left these words here

itforge Mar 5 2012 at 12:22

Cмотря, что называть принципиальным отличием. С высоты птичьего полёта — та же петрушка. А если смотреть оооочень детально, то в двух разных минорных версиях Scrapy можно найти принципиальные отличия :)

UFO landed and left these words here

itforge Mar 5 2012 at 12:45

Увы, не могу ничего вам обещать. Но есть пример: мы с товарищем по grablab вместе занимаемся парсингом, он сначала использовал scrapy, а потом как-то не могу побороть один баг, попробовал grab:spider, да так на нём и остался. Причём он его без всякой документации юзает т.к. по сути там апи не сильно сложный.

Архитектура у обоих фреймворков одинаковая: пишем функции для обработки ответа от сервера, внутри функции можно порождать новые запросы. В данный момент в grab:spider нет никаких фишек для деплоя — я беру файл, называю его spider.py и фигачу туда всю логику, затем я запускаю его через команду python spider.py — вот и весь деплой :) В принципе, довольно удобно, в скрапи меня напрягала вся эта возня с проектами, с настройками, с пайплайнами. В спайдере нету пайплайнов, куда хотим — туда и пишем ручками… Я пишу в mongodb обычно.

В spider есть одна фича — не знаю, есть ли она в scrapy. Эта фича сильно обгечает отладку парсинга и повторный парсинг. Все GET-запросы кэшируются в монгодб. Очень-очень удобно :)

UFO landed and left these words here

itforge Mar 5 2012 at 12:49

Да, монга опциональна. Вот без pycurl точно не заведётся.

itforge Mar 5 2012 at 12:50

dumpz.org/173587/ — я сейчас этой болванкой пользуюсь, когда новый проект начинаю

istinspring Mar 5 2012 at 12:48

за день? ) пара примеров и все ясно, xpath и там и там один и тот же, общие принципы работы тоже. мне как-то пришлось несколько пауков переписывать (scrapy->grab), управился за пару часов.

кстати есть конференция в жаббере, я думаю там с радостью ответят на возникающие вопросы =)

istinspring Mar 5 2012 at 12:41

использовал scrapy достаточно продолжительное время, grab понравился больше.
тому есть множество причин, например скорость парсинга в грабе у меня получается на порядок (!!!) выше. ну и он проще, больше контроля. если скрапи это как бы django в мире парсинга, то grab — это flask ) как-то так.

на скрапи канешно много всего — всякие фишки для деплоя, получение информации о работе пауков. но мне это (да и обычному программисту) чаще всего не нужно.

к плюсам граб можно отнести то что он на 100% проверен в деле т.е. бро itforge писал/дописывал зачастую параллельно с какими-то проектам которые на полную использовали функционал библиотеки, поэтому она получилас весьма удобной и продуманной до мелочей.

korab Mar 5 2012 at 18:10

есть что-то подобное под .net?

catlion Mar 5 2012 at 19:07

Html Agility Pack для разбора, есть еще какие-то расширения к нему

Arceny Mar 5 2012 at 20:28

Спасибо :)

HomoErectus Mar 5 2012 at 23:14

Я так понял JavaScript в пролете? Если так, то очень жаль.
Сейчас бывает порой, пол сайта генерит JavaScript. Сам пользуюсь Mechanize или Selenium там где много скриптов, но далеко на нем конечно не уедешь.

istinspring Mar 6 2012 at 02:13

в любом случае для js нужен браузер (виртуальная машина которая будет обрабатывать js код). есть транспорт для Selenium grablib.org/docs/grab/transport.html#selenium

сам селениум, если я не ошибаюсь позволяет поключать htmlunit.

itforge Mar 6 2012 at 03:01

Есть планы по подключению selenium, там на самом деле день-два посидеть и будет рабочее решение.

meako Mar 6 2012 at 08:21

Вот всегда так, только задумываю заняться каким-то новеньким проектом, или технологией, так нужная мне статья выскакивает на хабре. Спасибо:)

avonar Mar 6 2012 at 17:13

вопрос, можно сделать так
if 'text' in g.response.body:
а можно так
if g.seach('text'):

что будет более рационально? или это для каких-то других целей сделано?

itforge Mar 6 2012 at 18:22

> или это для каких-то других целей сделано?
`g.search`, по-умолчанию, работает с уникодом и ищет в unicode-представлении документа. То есть вам не нужно думать, в какой кодировке документ, вы можете всегда исползовать unicode-аргумент для поиска. Если же вы хотите искать таки байтовую строку, то нужно передать дополнительный аргумент `byte=True`, тогда поиск будет происходить в `g.response.body`.

> что будет более рационально?
docs.python.org/library/timeit.html

Rome Mar 11 2012 at 15:28

Насчет urllib с этой либой есть проблемы в транспортной части, она не может подключится к ряду сайтов. Например wikipedia.org Поэтому использую grab, с ним еще проблем не возникало.

itforge Mar 11 2012 at 15:53

С urllib всё в порядке. Просто для подключения к википедии надо указывать реальный User-Agent. Возможно что-то ещё, я давно не заморачиваюсь такими вещами т.к. в Grab все нужные заголовки генерируются.

Rome Mar 11 2012 at 21:36

Спасибо за наводку :)

dvska May 15 2012 at 10:39

Кто-нибудь grabил сайты на GWT?

Methos May 14 2014 at 06:30

Как это подключить к xmlrpclib, чтобы закачать жж с помощью программы ljdump?

Ибо жж уже на 1000 записи пишет Fault 402: 'Client error: Your IP address is temporarily banned for exceeding the login failure rate.

Или подскажите инструмент, с помощью которого можно выкачивать жжурналы с авторизацией, желательно в xml-виде, с комментариями.

itforge May 14 2014 at 07:10

Про инструмент ничо не подскажу. Чтобы не было бана по IP — используйте прокси. Например, эти datalab.io/proxy

and7ey Jun 22 2016 at 16:54

Ссылки на документацию все умерли… А жаль.