Angelina_Kurgak2 июн 2023 в 16:51

Применение Python для сбора и предобработки данных цифрового следа

Простой

6 мин

9.3K

Поисковые технологии * Python * Google ChromeBig Data * Поисковая оптимизация *

Обзор

Из песочницы

Комментарии 4

Zhbert 3 июн 2023 в 05:07

Я-то думал. А тут три слова про обычный парсинг html, но в пафосном контексте.

Идея для следующей статьи: selenium. Некоторые сайты, где контент генерируется через JS прямо в браузере, не поддадутся BS, например, и «цифровой след» останется неполным! //это я скорее в качестве троллинга

P.S. Ещё и блоки кода картинками! :)

Angelina_Kurgak 3 июн 2023 в 08:41

Спасибо за отзыв! Постаралась учесть комментарий.

xokare 3 июн 2023 в 20:38

import requests
url = 'https://www.google.com/search?q=object&sxsrf=APwXEdcTFNrK6vqIhKkA8ofiMVABpdXz3Q%3A1685681947166&ei=G3d5ZPDmCaqsrgSvxpLoBg&ved=0ahUKEwiw4KjN5qP_AhUqlosKHS-jBG0Q4dUDCA8&uact=5&oq=object&gs_lcp=Cgxnd3Mtd2l6LXNlcnAQAzINCAAQigUQsQMQgwEQQzINCAAQigUQsQMQgwEQQzINCAAQigUQsQMQgwEQQzIKCAAQigUQsQMQQzIICAAQgAQQsQMyCAgAEIAEELEDMg0IABCKBRCxAxCDARBDMg0IABCKBRCxAxCDARBDMgcIABCKBRBDMgsIABCKBRCxAxCDAToHCCMQigUQJzoECCMQJzoRCC4QgAQQsQMQgwEQxwEQ0QM6BQgAEIAEOgsIABCABBCxAxCDAToICC4QgAQQsQM6DgguEIAEELEDEMcBENEDOhIIABCKBRCxAxCDARBDEEYQ_wFKBAhBGABQAFjiC2DwDGgAcAF4AIAB2gOIAaALkgEJMC4xLjMuMC4xmAEAoAEBwAEB&sclient=gws-wiz-serp'
r = requests.get(url)

Скорее всего любезно отдаст вам код 403 (потому что стандартный user-agent python requests блокируется гуглом). А даже если и не отдаст попросит пройти рекапчу

Angelina_Kurgak 4 июн 2023 в 01:59

Спасибо за отзыв! При выполнении кода ошибок не возникло, и далее ссылка на другой сайт была получена, но, действительно, часто требуется изменять заголовки или сделать что-то еще.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий