dim272 18 мар в 13:40

Настраиваем паука для сбора данных: как работает фреймворк Scrapy

6 мин

3.9K

Блог компании ТочкаPython*Программирование*

Комментарии 5

koleso_O 18 мар в 23:49

Есть ли механизмы обхода проксей по типу cloudflare (кроме возможности направить запрос через прокси)?

dim272 19 мар в 17:53

Когда на сайте появляется защита, это повод пересмотреть подход к парсингу. Сначала я выясняю, при каких условиях она срабатывает, и применяю следующие методы:

Использую качественные прокси (и чем больше, тем лучше).
Уменьшаю частоту запросов, чтобы избежать подозрений.
Работаю с cookies для имитации "доверенного" пользователя.
Имитирую реального пользователя через headless-браузеры или Splash.

Если Cloudflare всё же активируется, либо ищу способ обхода (в сети много интересного по этой теме), либо повторяю запрос с другим прокси.

Kliffoth 7 мая в 16:02

Т.е. владелец сайта явно дает понять, что против автоматического сбора данных, но вы упорно игнорируете этот факт?

yuraisme 26 мар в 19:09

как будто бы он не очень подходит для современных сайтов, где из html только тэг <html><body> а всё остальное на реакте или любом другом JS фреймворке. Если что-то старое, то php. В любом случае нужно рендерить. А scrapy вроде только напрямую с GET/POST запросами может работать....

dim272 26 мар в 19:21

В scrapy можно интегрировать splash/selenium, и таким образом решить проблему js рендеринга.

Но, статья не о том, что нужно всегда и везде использовать scrapy. Иногда проще написать отдельный парсер.

Я выбираю этот фреймворк, когда стоит задача регулярного сбора большого количества источников с похожим форматом данных.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий