dmvcm28 авг 2016 в 07:54

Scrapy: собираем данные и сохраняем в базу данных

5 мин

73K

Python *

Из песочницы

+13

Комментарии 14

nikitasius 28 авг 2016 в 11:04

regexp, не?

Akhristenko 28 авг 2016 в 14:49

Ну и легендарный уже ответ на этот вопрос

nikitasius 28 авг 2016 в 17:30

Я спрашиваю потому, что сам парсю и html и xml для выдергивания данных через регулярки и не понимаю, на кой черт сие парсить отдельным фреймворком.
Вот JSON… его парсинг мне мозг ломает и я просто использую библиотеку.

okeld 28 авг 2016 в 13:21

Beautiful Soup

alan008 28 авг 2016 в 13:27

А суп кроулить по ссылкам умеет?

alan008 28 авг 2016 в 19:30

Вот интересно, какие умники минусят?
Человек в статье описывает фреймворк, который, судя по описанию, умеет делать XPath запросы к HTML-содержимому, а также перемещаться автоматически по ссылкам на другие страницы сайта, чтобы обойти его весь (crawling). okeld предложил альтернативу — библиотеку Beautiful Soup. В этой библиотеке тоже можно делать запросы к HTML-содержиму, только не XPath, а несколько другого вида (на мой взгляд, менее гибкого и менее удобного). Я хотел узнать, умеет ли Beatiful Soup осуществлять какой-либо crawling или там нужно самому закачивать содержимое других страниц по ссылкам.
Я сам ни с Beautiful Soup, ни со Scrapy не работал, я даже не Pyhton-программист. Тем не менее, ответ мне интересен, т.к. заниматься парсингом сайтов мне также приходится (используя другие технологии и инструменты).

dmvcm 28 авг 2016 в 20:16

Beautiful Soup можно использовать вместо xpath для разбора html/xml. Насколько я могу судить Beatiful Soup не может осуществлять crawling. Данную библиотеку можно использовать совместно со scrapy при необходимости.

ilBEastli 29 авг 2016 в 03:32

В Scrapy используется своя библиотека Parsel для извлечения данных, основанная на lxml и cssselect. Но можно использовать непосредственно lxml или BeautifulSoup.

andjel 29 авг 2016 в 09:44

Для парсинга можно. Можно даже Selenium прикрутить, но мееедленно.

Crait 28 авг 2016 в 16:47

А что насчет JavaScript? Есть ли какое-то общее решение, которое позволит запускать паука, который будет находить все реквесты, которые может послать JavaScript со страницы?

dorsett 28 авг 2016 в 17:27

Возможно поможет замечательная npm-библиотека X-ray.
Либо Webdriver.io, по сути обертка над Selenium для Node.js.

XenoAura 29 авг 2016 в 08:06

Scrapy как минимум умеет работать с PhantomJS и Splash(self-hosted сервис рендеринга страниц c js)

GaroRobe 29 авг 2016 в 10:32

Мы решили вопрос с JS при помощи Splash (взяли готовый docker) + scrapy-splash.

estin 2 сен 2016 в 10:12

При записи сразу в БД главное не забывать об особенностях различных реляционных СУБД при конкурентной работе с одной и той же БД, так как возможны блокировки и долгие инсерты, которые будут тормозить асинхронного паука синхронной записью в БД (часто используют синхронные коннекты/сокеты)

Лучше избегать работу с реляционным БД напрямую из паука, а данные писать асинхронно в файл или другое хранилище заточенное для быстрого приема данных, а уже потом отдельно импортировать данные в целевую БД.

Но для простейших вещей можно и сразу в БД что бы было меньше звеньев )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий