Комментарии 14
А суп кроулить по ссылкам умеет?
Вот интересно, какие умники минусят?
Человек в статье описывает фреймворк, который, судя по описанию, умеет делать XPath запросы к HTML-содержимому, а также перемещаться автоматически по ссылкам на другие страницы сайта, чтобы обойти его весь (crawling). okeld предложил альтернативу — библиотеку Beautiful Soup. В этой библиотеке тоже можно делать запросы к HTML-содержиму, только не XPath, а несколько другого вида (на мой взгляд, менее гибкого и менее удобного). Я хотел узнать, умеет ли Beatiful Soup осуществлять какой-либо crawling или там нужно самому закачивать содержимое других страниц по ссылкам.
Я сам ни с Beautiful Soup, ни со Scrapy не работал, я даже не Pyhton-программист. Тем не менее, ответ мне интересен, т.к. заниматься парсингом сайтов мне также приходится (используя другие технологии и инструменты).
Либо Webdriver.io, по сути обертка над Selenium для Node.js.
При записи сразу в БД главное не забывать об особенностях различных реляционных СУБД при конкурентной работе с одной и той же БД, так как возможны блокировки и долгие инсерты, которые будут тормозить асинхронного паука синхронной записью в БД (часто используют синхронные коннекты/сокеты)
Лучше избегать работу с реляционным БД напрямую из паука, а данные писать асинхронно в файл или другое хранилище заточенное для быстрого приема данных, а уже потом отдельно импортировать данные в целевую БД.
Но для простейших вещей можно и сразу в БД что бы было меньше звеньев )
Scrapy: собираем данные и сохраняем в базу данных