Комментарии / Профиль itforge / Хабр

asdfasdfasdf@itforge

Пользователь

Подписчики

ПрофильСтатьи15ПостыНовостиКомментарии557

Документация по Grab — библиотеке для парсинга сайтов

itforge 5 мар 2012 в 12:08

Просто намного чаще нужен один элемент, так что я решил более короткое имя зарезервировать для получения первого элемента из выборки.

Документация по Grab — библиотеке для парсинга сайтов

itforge 5 мар 2012 в 11:46

Ну, вообще, их не одна. Например, scrapy.org очень популярен.

Документация по Grab — библиотеке для парсинга сайтов

itforge 5 мар 2012 в 11:45

grablib.org/docs/grab/dom.html#xpath — используйте метод `xpath_list` или `css_list`

Документация по Grab — библиотеке для парсинга сайтов

itforge 5 мар 2012 в 11:44

Честно говоря, иногда подумываю написать обёртку для регекспов, какой-нить облегчённый xpath. Просто бывает, когда надо парсить миллионы страниц, xpath слишком медленный, вернее само построение DOM-дерева.

Django Micro

itforge 5 мар 2012 в 10:46

Смотря, что за проект. Практика показывает, что есть неиллюзорные шансы найти кучу костылей и говнокода, написанных несколько лет назад человеком, которого и в проекте то уже нету :)

Методы мониторинга веб-сайтов и сервисов

itforge 28 фев 2012 в 17:32

Мне яметрика как-то странно присылала извещения о падении сайта, через несколько часов после события. Возможно, какой-то глюк с часовыми поясами.

Первый 5MB диск

itforge 27 дек 2011 в 01:02

Нет, он бы привык и через неделю попросил бы у вас апргрейднуть комп т.к. у него последний хит подтормаживать стал.

AI Challenge 2011 Ants. Глазами участника Murashka (15-е место)

itforge 26 дек 2011 в 03:27

Парни, что это вообще за конкурс, где почитать какой-нить обзор хороший про него?

Фреймворк для парсинга Grab:Spider

itforge 26 дек 2011 в 01:45

не, pyquery пока тока в репозитории

Фреймворк для парсинга Grab:Spider

itforge 26 дек 2011 в 00:31

Ясно. Ну такой подход ожидаемо тормозит по сравнению с lxml. Тормозит чуть ли не в 10 раз: dumpz.org/122917/ Думаю тормоза из-за того, что каждый раз вызывается функция и каждый раз в ней стрится дополнительный PyQuery-объект.

А вообще, раз мы про pyquery заговорили, я подумал — самое время — и замержился с pyquery-форком. В общем, теперь в грабе через аттрибут `pyquery` доступно PyQuery-дерево.

Скончался Джек Голдман — основатель и директор Xerox PARC

itforge 25 дек 2011 в 03:28

А вы уверены, что оно надо? Жить больше 100 лет, например. За такой срок жизнь может наскучить изрядно.

-1

Фреймворк для парсинга Grab:Spider

itforge 22 дек 2011 в 08:57

Да, чё-то глючит меня. Я тест написал.

# -*- coding: utf-8 -*- 
import time 
from scrapy.selector import HtmlXPathSelector 
import urllib
from lxml.html import fromstring

data = urllib.urlopen('http://tubesexclips.com/').read()

start = time.time() 
hxs = HtmlXPathSelector(text=data)
scrapy_results = set()
for elem in hxs.select('//div[@class="added-download"]/a'):
    href, text = elem.select('@href').extract()[0], elem.select('text()').extract()[0]
    scrapy_results.add((href, text))
print 'HtmlXpathSelector: %.2f' % (time.time() - start) 

start = time.time() 
tree = fromstring(data)
lxml_results = set()
for elem in tree.xpath('//div[@class="added-download"]/a'):
    href, text = elem.xpath('@href')[0], elem.xpath('text()')[0]
    lxml_results.add((href, text))
print 'lxml: %.2f' % (time.time() - start) 

print 'Equal: %s' % (scrapy_results == lxml_results)

Показана реальная ситуация, я очень часто итерируюсь по xpath выборке и применяю дополнительные xpath-выражения к каждому элементу выборки.

У меня такие результаты:

lorien@athlon:/web/barn$ python speed3.py 

HtmlXpathSelector: 0.75

lxml: 0.02

Equal: True

Фреймворк для парсинга Grab:Spider

itforge 22 дек 2011 в 08:44

pyquery предоставляет возможность писать селекторы в виде jquery-селекторов, не путайте их с css-селекторами.Это разные вещи, хоть и похожи. Кроме того, я писал выше, что lxml не поддерживает сложные css-селекторы. Мне сейчас проверять лень.

Фреймворк для парсинга Grab:Spider

itforge 22 дек 2011 в 01:39

Так, с примером проблема. Я не знаю, как в scrapy без создания целого парсера просто получить HtmlXPathSelector от какого-либо содерижмого, он хочет какой-то response-объект, если вы мне подскажите, как его сделать, я напишу пример.

-1

Почему программисты работают по ночам

itforge 22 дек 2011 в 01:32

А я в 4 утра встал :) Но не потому что я жаворонок, просто ложился всё позднее и позднее и…

+34

Фреймворк для парсинга Grab:Spider

itforge 21 дек 2011 в 23:16

А почему оно должно было заработать? Yield же должен кто-то ловить и обрабатывать, ну вот его и ловит код, который task-функцию вызывает. Если хотите добавить из другого места task, то можете использовать просто self.add_task(Task(..)). А yield это просто для удобства и красоты.

Фреймворк для парсинга Grab:Spider

itforge 21 дек 2011 в 23:14

А там, по-моему, обрезанный какой-то css, я как-то пробовал :nth-child(x) — у меня не заработало. А pyquery, наверное, всё корректно транслирует в xpath.

Фреймворк для парсинга Grab:Spider

itforge 21 дек 2011 в 23:12

Бывают сайты с табличной вёрсткой, где множество вложенных тэгов table, tr, td. Там особо не к чему привязаться кроме поясняющего текста внутри нужной ячейки

Фреймворк для парсинга Grab:Spider

itforge 21 дек 2011 в 22:46

Хм, даже не знаю, у меня POST-запросы без проблем работают в linux. Напишу попозже тесты на множественные POST-запросы, посмотрим.

Весь трафик кстати можно логировать как с обычным Grab.

bot = SomeSpider(...)
bot.setup_grab(log_dir='/path/to/dir')

Фреймворк для парсинга Grab:Spider

itforge 21 дек 2011 в 22:30

А там можно задать условия, например, на текст внутри элемента?

//div/strong[contains(text(), «Google»)]

1 2 ...

18 19

21 22 ...

27 28