Comments / Profile of itforge / Habr

asdfasdfasdf@itforge

User

ProfileArticles15PostsNewsComments559

Что такое Grab:Spider?

itforge Apr 18 2012 at 09:03

Вылетал, наверное, потому что ты там слишком много заданий в очередь добавлял.

Что такое Grab:Spider?

itforge Apr 18 2012 at 08:17

Неа, пока каких-то инструментов для сравнения нету. Библиотека пишется спонтанно. Естественно, если вы будете писать своё решение, то будучи заточенное под задачу он будет быстрее Grab работать.
Пожелания по железу. Используя асинхронность вы скорее всего упрётесь раньше в CPU или жёсткий диск или в канал. Также учтите что для парсинга Grab использует только одно ядро.

Что такое Grab:Spider?

itforge Apr 18 2012 at 07:21

Хорошо, что вы комментарий написали, а то тут так пусто :)
Curl я почти выпилил уже. Ну из Grab то его, допустим, можно лего вытащить и юзать urllib, сейчас транспорт почти готов. А вот из Spider вытащить то я уже вытащил, но альтернативой пока что может служить только пул тредов (или процессов) а это значит, что собо много потоков нельзя будет запустить — cpu убьётся или память. В общем, я эти фичи щас попиливаю потихоньку. Чувствую, где-то в течении месяца уже работающие вещи будут.

Использование Grab:Spider для парсинга сайтов

itforge Apr 17 2012 at 07:18

Ну хорошо, сравнивайте Grab и Spider, если так хочется :D

Использование Grab:Spider для парсинга сайтов

itforge Apr 17 2012 at 06:41

istinspring является главным тестером Grab, тестирование — тоже процесс разработки :)

Использование Grab:Spider для парсинга сайтов

itforge Apr 17 2012 at 06:37

Первым и последним. Больше не с чем сравнивать :) Если кто-то накидает ещё ссылок на похожие проекты — буду благодарен. И правильно говорить о сравнении Grab:Spider и Scrapy. Ибо Grab это нечто другое — это API для синхронных сетевых запросов и обработки полученных ответов. Grab скорее надо сравнивать с urllib2, urllib3, requests, pycurl, mechanize.

Использование Grab:Spider для парсинга сайтов

itforge Apr 17 2012 at 06:22

Для того, чтобы сравнить, нужно для начала определиться по каким критериям сравнивать. Этакую матрицу критериев выработать. Я уже сам не знаю, что получится через год из Spider. Хочется верить, что сделаю поддержку работы Spider на кластере :) И ещё хочется допилить selenium. А ещё я там недавно вынес код работы с сетью в отдельный слой (в Spider, в Grab это давно уже) и теперь можно реально делать работу Spider на других сетевых библиотеках: twisted, gevent, pool тредов или процессов.

Простой и приятный видеоролик о Linux

itforge Apr 10 2012 at 23:06

Не знаю, что за приколы такие. Скачайте да посмотрите.

Простой и приятный видеоролик о Linux

itforge Apr 10 2012 at 16:21

Вот инфа по фильму en.wikipedia.org/wiki/Graphic_Sexual_Horror
Скачать можно с порнолаба, например: pornolab.net/forum/viewtopic.php?t=1193902

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 11 2012 at 15:53

С urllib всё в порядке. Просто для подключения к википедии надо указывать реальный User-Agent. Возможно что-то ещё, я давно не заморачиваюсь такими вещами т.к. в Grab все нужные заголовки генерируются.

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 6 2012 at 18:22

> или это для каких-то других целей сделано?
`g.search`, по-умолчанию, работает с уникодом и ищет в unicode-представлении документа. То есть вам не нужно думать, в какой кодировке документ, вы можете всегда исползовать unicode-аргумент для поиска. Если же вы хотите искать таки байтовую строку, то нужно передать дополнительный аргумент `byte=True`, тогда поиск будет происходить в `g.response.body`.

> что будет более рационально?
docs.python.org/library/timeit.html

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 6 2012 at 12:29

Я думал, на php шаред-хостингах обычно обрубают взимодействие с сетью.

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 6 2012 at 09:06

Баян :) В смысле, эта ссылка на два коммента выше уже запощщена.

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 6 2012 at 08:47

dispy, delegate, forkmap (original), forkmap (modified), ppmap, POSH, pp, pprocess, processing, PyCSP, remoteD, batchlib, Celery, Deap, disco, dispy, DistributedPython, exec_proxy, execnet, IPython, jug, mpi4py, NetWorkSpaces, PaPy, papyros, pp, PyLinda, pyMPI, pypar, pyPastSet, pypvm, pynpvm, Pyro, rthread, ScientificPython, seppo, Star-P for Python, superpy, Google App Engine, PiCloud, StarCluster, Ganga, Minimum intrusion Grid, PEG, pyGlobus

:)

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 6 2012 at 07:07

> Написание своей обертки для xpath приведет к написанию… xpath! Причем скорее всего менее расширяемого и, возможно, более тормозного. Так зачем?

Регекспы работают очень быстро. Естественно не нужно заново изобретать xpath, достаточно очень простого синтаксиса, чтобы описать пару самых распространнённых случаев:
1) найти тэг с заданным class/id
2) найти тэг с заданным class/id, у родителя которого заданный class2/id2
3) У тэга из 1 и 2 получить аттрибут какой-нибудь
4) У тэга из 1 и 2 получить содержимое.

Не нужна расширяемость, нужна быстрая реализация простых паттернов.

Горизонтальное масштабирование хорошо, когда есть под рукой облако, желательно бесплатное :) В этом направлении я тоже копаю постепенно, например, щас в grab:spider можно разбить выполнение задачи по ядрам, но особого прироста это не даёт, двукратное ускорение на моём четырёхядерном-athlon. Да и ещё оказалось, что модуль multiprocessing не шибко удобная штука, распараллеливание по сети в нём вроде как вообще нету. Думаю посмотреть в сторону какого-нить pyro

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 6 2012 at 03:01

Есть планы по подключению selenium, там на самом деле день-два посидеть и будет рабочее решение.

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 5 2012 at 13:52

А что регекспы? Регекспу /<div[^>]*>([^<]+) абсоюлтно пофиг, какой документ, валидный или нет, он просто ищет текст внутри div-тэга.

Вся сложность с регекспами в том, что очень сложно описать вложенные тэги. Банальное xpath выражение "//div/div" с помощью регкспов описывается монстрообразным (не проверял):

<div[^>]*>\s*<div[^>]*>(.(?!))+\s*

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 5 2012 at 12:52

SAX непременим для разбора невалидных XML. Все сайты невалидные. Чтобы получить валидный XML из битого HTML, нужно затратить усилия, сравнимые с построением DOM-дерева. Поправьте, если я ошибаюсь.

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 5 2012 at 12:50

dumpz.org/173587/ — я сейчас этой болванкой пользуюсь, когда новый проект начинаю

Документация по Grab — библиотеке для парсинга сайтов

itforge Mar 5 2012 at 12:49

Да, монга опциональна. Вот без pycurl точно не заведётся.

1 2 ...

17 18

20 21 ...

27 28