istinspring Apr 17 2012 at 06:07

Использование Grab:Spider для парсинга сайтов

4 min

19K

Python*

+31

Comments 17

xa4a Apr 17 2012 at 06:16

Спасибо, интересно.

Так же интересно было бы сравнение с уже более опытными open-source альтернативами, вроде Scrapy, а так же мысли по поводу защиты сайта от подобного софта.

itforge Apr 17 2012 at 06:22

Для того, чтобы сравнить, нужно для начала определиться по каким критериям сравнивать. Этакую матрицу критериев выработать. Я уже сам не знаю, что получится через год из Spider. Хочется верить, что сделаю поддержку работы Spider на кластере :) И ещё хочется допилить selenium. А ещё я там недавно вынес код работы с сетью в отдельный слой (в Spider, в Grab это давно уже) и теперь можно реально делать работу Spider на других сетевых библиотеках: twisted, gevent, pool тредов или процессов.

istinspring Apr 17 2012 at 06:31

Я использовал Scrapy, потом как-то делал проект, большой (около миллиона страниц), там возникли трудности с которыми я не смог справиться, переписал на Grab:spider и все заработало и быстро сделалось. На мой взгляд Grab работает намного быстрее и проще для понимания.

В скрапи например была проблема в 0.13 версии, при парсинге если у тебя Twisted 11.01 (не помню точно) он вылетал через некоторое время с ошибкой, и советовали даунгрейдить версию на 11.00. Более того у них в группах постоянно всплывают темы, как увеличить скорость и как добавить прокси. Подозреваю что нормальной поддержки стэка проксей они не делают из-за своего стартапа который будет предоставлять всю эту инфраструктуру на облаке.

seriyPS Apr 17 2012 at 21:02

Scrapy сам по себе крайне шустрый, мне удавалось полностью утилизировать процессор на нем (т.е. упирался не в IO и не в память, а именно уже в процессор!). Но его надо уметь готовить. Основная причина тормозов — синхронные вызовы. Если у вас присутствуют блокирующие операции в процессе работы (обращения к базе данных например), то тормоза гарантированы. Я для себя эту проблему решил прикручиванием асинхронного AMQP пайплайна и обработкой/сохранением результатов отдельными воркерами.
Для прокси есть нормальная работающая MiddleWare. чем не устраивает? Что такое стек прокси? Если подразумеваются прокси-листы, то это пишется за 10 минут…

istinspring Apr 18 2012 at 01:19

хотелось бы взглянуть на MiddleWare для прокси.

я писал но у меня почему-то не работало, несколько я помню он как-то странно перемешивал хидеры которые я ставил в миддлварях.

USER_AGENTS_LIST = open(os.path.join(ROOT, 'user_agents.txt'), 'r').readlines()
PROXY_LIST = open(os.path.join(ROOT, 'proxy_list.txt'), 'r').readlines()

PROXY_USR_PWD_ENCODED = base64.b64encode('user:pass').strip()


class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        request.headers['User-Agent'] = random.choice(USER_AGENTS_LIST)


class RandomProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = "http://%s" % random.choice(PROXY_LIST)
        request.headers['Proxy-Authorization'] = 'Basic ' + \
                                                 PROXY_USR_PWD_ENCODED


class RemoveRefererMiddleware(object):
    def process_request(self, request, spider):
        if 'Referer' in request.headers:
            del request.headers['Referer'] # or = 'http://google.com'

На Spider:grab все это делается намного проще. Можно ничего не передавать (тогда создасться новый объект grab), а можно в следующий таск передать клон объекта grab со всеми куками и хидерами.

seriyPS Apr 18 2012 at 10:09

Чтобы отключить реферрер можно попробовать отключить middleware, который его выставляет по идее doc.scrapy.org/en/0.14/topics/spider-middleware.html#module-scrapy.contrib.spidermiddleware.referer

Для прокси у нас написано примерно так:

class HttpProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = self._get_new_proxy()

    def _get_new_proxy(self):
        #... round-robin there ...
        return 'http://{0}:{1}/'.format(proxy['ip'], proxy['port'])

Но у нас не используется авторизация и используется round-robin вместо random. Т.е. практически как у вас.
Идея взята отсюда github.com/scrapy/scrapy/blob/master/scrapy/contrib/downloadermiddleware/httpproxy.py

istinspring Apr 18 2012 at 01:22

Мы зачастую упираемся в возможности сервера на котором расположена цель. :)
Я думаю соберусь как-нибудь протестирую граб и скрапи на эталонном сайте.

seriyPS Apr 17 2012 at 21:08

Лучший способ защиты — кривая верстка и невалидный HTML))) На самом деле — ограничение на число запросов. Но это не гарантирует защиту, а просто сильно усложняет работу (нужно увеличивать таймауты или прокси использовать).
Если нужно что-то посерьезнее — то куки, устанавливаемые обфусцированным JavaScript на клиенте. JS интерпретатор в паука встраивать занятие непростое (но тут и поисковики не смогут на сайт попасть).

xa4a Apr 17 2012 at 06:28

Для того, чтобы сравнить, нужно для начала определиться по каким критериям сравнивать.

В Ваших интересах, как минимум, по тем критериям, по которым Grab выигрывает. Это может быть всё, что угодно с точки зрения пользователя: удобство API, документация, поддержка, фичи, активность разработки итд. Если бы я был потенциальным пользователем и был бы на стадии выбора фреймворка для своего проекта, то рассматривал бы разные альтернативы. Google первым результатом выдаёт scrapy, почему бы мне его не использовать?

itforge Apr 17 2012 at 06:37

Первым и последним. Больше не с чем сравнивать :) Если кто-то накидает ещё ссылок на похожие проекты — буду благодарен. И правильно говорить о сравнении Grab:Spider и Scrapy. Ибо Grab это нечто другое — это API для синхронных сетевых запросов и обработки полученных ответов. Grab скорее надо сравнивать с urllib2, urllib3, requests, pycurl, mechanize.

xa4a Apr 17 2012 at 06:41

И правильно говорить о сравнении Grab:Spider и Scrapy.

Не правильно?

Ибо Grab это нечто другое — это API для синхронных сетевых запросов и обработки полученных ответов.

Вот главная страница grablib.org/ говорит, что Grab — фреймворк для парсинга сайтов. Это тоже, можно сказать, обработка полученных ответов.
В scrapy:

Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages.

На первый взгляд — то же самое.

itforge Apr 17 2012 at 07:18

Ну хорошо, сравнивайте Grab и Spider, если так хочется :D

mktums Apr 17 2012 at 06:36

Ой, ладно скромничать, ты не «активный пользователь Grab», ты один из разработчиков =)

istinspring Apr 17 2012 at 06:37

ага, 1 коммит сделал )

itforge Apr 17 2012 at 06:41

istinspring является главным тестером Grab, тестирование — тоже процесс разработки :)

Arceny Apr 17 2012 at 17:39

Все молодцы :) Вот сейчас как раз очередной паук разрабатывается… :)

svetlov Apr 17 2012 at 19:03

Отличная статья! Большое спасибо.