ru_vds 7 фев 2020 в 12:30

Node.js, Tor, Puppeteer и Cheerio: анонимный веб-скрапинг

7 мин

30K

Блог компании RUVDS.comВеб-разработка*Node.JS*

Перевод

+34

Комментарии 17

jhonyxakep 7 фев 2020 в 15:42

Почему бы вместо cheerio не инжектить на страницу внутри puppeteer jQuery и не тащить сразу финальные данные оттуда?

Klestofer 8 фев 2020 в 11:23

Можно ещё проще: после

await page.goto('https://news.ycombinator.com/');

пишем

const titles = await page.$$eval('.storylink', links => links.slice(0, 5).map(link => link.textContent));

и получаем то, что нужно без jQuery и Cheerio.

michael_kotor 7 фев 2020 в 15:54

Мне кажется, чтобы взять достаточно данных там, где этого не хотят и фильтруютд по адресу, 4 порта никак не хватит

SenDeliver 7 фев 2020 в 16:41

В чем разница между прямым запросом на страницу, и получение её HTML в response, и открытии этой страницы в браузере, с последующим копированием HTML?

Vest 7 фев 2020 в 16:53

Я как бы не спец в этом, но ваша страница может быть динамической и подгружаться на лету. Вы можете её этим способом всю получить. А так, пришлось бы получать её из каких-нибудь веб-сервисов или по частям.

dasnein 7 фев 2020 в 18:05

Тут дело в том, что при попытке получить HTML-код страницы, которая является SPA (Single Page Application), вы, скорее всего, в получите в ответ страницу, в теле которой будет только что-то вроде такого:

<script src="app.js"></script>

А если брать содержимое страницы из браузера – то получим уже нормальный HTML.
В статье, кстати, про это говорится

Alexufo 8 фев 2020 в 05:58

Так это означает что это приложение общается по API и весь вопрос в том расковыривать ли вам API, или оно так сложно что легче парсить html

Alexey_mosc 7 фев 2020 в 18:57

Здравствуйте!

Спасибо за статью. Я по скрапингу не очень, поэтому появился вопрос. Если описываемым способом заходить на такой сайт на JS: 1xstavka.ru/en/live/Basketball, произойдет рендеринг html, чтобы, например, сохранить его как файл на диске?

alekssamos 7 фев 2020 в 20:20

const content = await page.content();
И в этой переменной как раз и будет уже готовый HTML из браузера.

Alexey_mosc 7 фев 2020 в 20:32

Спасибо!

akazakow 7 фев 2020 в 22:04

Сталкивался с похожей проблемой, но Tor оказался слишком медленным — нужно было скрейпить миллионы запросов.

Возможная альтернатива Тору — покупка VPN (есть позволяющие до 8 одновременных коннектов) и запуск массива Docker контейнеров, подключающихся по OpenVPN и заворачивающих трафик в SOCKS.

Также, в большинстве случаев headless browser может быть избыточен, сессии в библиотеке requests на питоне (уверен, есть похожая библиотека для JS) + подмена User-Agent и Referrer почти всегда решают задачу. Конечно, часто на настройку этого требуется больше времени, однако и производительность существенно выше.

LazyTalent 8 фев 2020 в 12:19

Tor не только очень медленный, но ещё и IP адреса выходных нодов часто бывают забанены на сайте или закрыты какой-нибудь гугл капчой.

IvKusto 10 фев 2020 в 11:12

А у вас не возникало ситуации, когда надо получить выборку релевантную местоположению? Если не использовать headless browser, есть какой-то способ тот же гугл убедить, что ты находишься в конкретном городе?

Tarik02 7 фев 2020 в 23:50

Хмм, раз у сайта есть API, то почему бы его не юзать напрямую, минуя при этом headless браузер?

rtyshyk 8 фев 2020 в 14:05

Все зависит от задачи. Если мы должны парсить конкретный сайт, вы правы.
Но есть случаи когда нужно парсить любой веб-сайт и извлекать от туда к примеру контактный данные, в этом случаи без хедлес браузера не обойтись.

Alexufo 9 фев 2020 в 14:12

Бывает ключик генерится на клиенте обфусцированным алгоритмом слегка

tyorn 25 апр 2023 в 12:11

Никто и не использует headless браузер просто потому, что сайт это SPA и у него есть API. headless для тех случаев, когда собрать аналогичный запрос руками почти нереально (хеши/подписи в параметрах запросов итд), или когда на сайте присутствуют защиты от парсинга, основанные на выполнении js.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий