Комментарии 4
Я-то думал. А тут три слова про обычный парсинг html, но в пафосном контексте.
Идея для следующей статьи: selenium. Некоторые сайты, где контент генерируется через JS прямо в браузере, не поддадутся BS, например, и «цифровой след» останется неполным! //это я скорее в качестве троллинга
P.S. Ещё и блоки кода картинками! :)
+1
import requests
url = 'https://www.google.com/search?q=object&sxsrf=APwXEdcTFNrK6vqIhKkA8ofiMVABpdXz3Q%3A1685681947166&ei=G3d5ZPDmCaqsrgSvxpLoBg&ved=0ahUKEwiw4KjN5qP_AhUqlosKHS-jBG0Q4dUDCA8&uact=5&oq=object&gs_lcp=Cgxnd3Mtd2l6LXNlcnAQAzINCAAQigUQsQMQgwEQQzINCAAQigUQsQMQgwEQQzINCAAQigUQsQMQgwEQQzIKCAAQigUQsQMQQzIICAAQgAQQsQMyCAgAEIAEELEDMg0IABCKBRCxAxCDARBDMg0IABCKBRCxAxCDARBDMgcIABCKBRBDMgsIABCKBRCxAxCDAToHCCMQigUQJzoECCMQJzoRCC4QgAQQsQMQgwEQxwEQ0QM6BQgAEIAEOgsIABCABBCxAxCDAToICC4QgAQQsQM6DgguEIAEELEDEMcBENEDOhIIABCKBRCxAxCDARBDEEYQ_wFKBAhBGABQAFjiC2DwDGgAcAF4AIAB2gOIAaALkgEJMC4xLjMuMC4xmAEAoAEBwAEB&sclient=gws-wiz-serp'
r = requests.get(url)
Скорее всего любезно отдаст вам код 403 (потому что стандартный user-agent python requests блокируется гуглом). А даже если и не отдаст попросит пройти рекапчу
+1
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Применение Python для сбора и предобработки данных цифрового следа