ozon.ru, например, вы с помощью простых http-клиентов (requests, aiohttp и им подобных) не спарсите. Даже если скопируете из браузера и передадите в запросе все реальные браузерные заголовки. И даже если пробовать json напрямую из api запрашивать. Проверено. Потому что там в каждом запросе должен быть уникальный токен. А токены из предыдущих запросов браузера уже "протухшие". А новый токен http-клиент получает в предварительном запросе-ответе, пройдя проверку на способность обработать javascript. Так что http-клиенты не умеющие обрабатывать js блокируются. Поэтому увы, ваш метод не сработает для особо защищенных сайтов.
"этот туториал" подойдет для парсинга разве что для указанного в статье сайта example.com Сайты с защитой от парсинга такой парсер с указанными настройками заблокируют
О боги!!! Я нашёл это крутое объяснение, зачем нужен poetry и чем он лучше pip. Можете смеяться, но не всем это очевидно. Автору респектище!
ozon.ru, например, вы с помощью простых http-клиентов (requests, aiohttp и им подобных) не спарсите.
Даже если скопируете из браузера и передадите в запросе все реальные браузерные заголовки. И даже если пробовать json напрямую из api запрашивать. Проверено. Потому что там в каждом запросе должен быть уникальный токен. А токены из предыдущих запросов браузера уже "протухшие". А новый токен http-клиент получает в предварительном запросе-ответе, пройдя проверку на способность обработать javascript. Так что http-клиенты не умеющие обрабатывать js блокируются. Поэтому увы, ваш метод не сработает для особо защищенных сайтов.
"этот туториал" подойдет для парсинга разве что для указанного в статье сайта example.com
Сайты с защитой от парсинга такой парсер с указанными настройками заблокируют