Как стать автором
Обновить

Комментарии 5

Есть ли механизмы обхода проксей по типу cloudflare (кроме возможности направить запрос через прокси)?

Когда на сайте появляется защита, это повод пересмотреть подход к парсингу. Сначала я выясняю, при каких условиях она срабатывает, и применяю следующие методы:

  • Использую качественные прокси (и чем больше, тем лучше).

  • Уменьшаю частоту запросов, чтобы избежать подозрений.

  • Работаю с cookies для имитации "доверенного" пользователя.

  • Имитирую реального пользователя через headless-браузеры или Splash.

Если Cloudflare всё же активируется, либо ищу способ обхода (в сети много интересного по этой теме), либо повторяю запрос с другим прокси.

Т.е. владелец сайта явно дает понять, что против автоматического сбора данных, но вы упорно игнорируете этот факт?

как будто бы он не очень подходит для современных сайтов, где из html только тэг <html><body> а всё остальное на реакте или любом другом JS фреймворке. Если что-то старое, то php. В любом случае нужно рендерить. А scrapy вроде только напрямую с GET/POST запросами может работать....

В scrapy можно интегрировать splash/selenium, и таким образом решить проблему js рендеринга.

Но, статья не о том, что нужно всегда и везде использовать scrapy. Иногда проще написать отдельный парсер.

Я выбираю этот фреймворк, когда стоит задача регулярного сбора большого количества источников с похожим форматом данных.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий