Как стать автором
Обновить

Применение Python для сбора и предобработки данных цифрового следа

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.6K
Всего голосов 16: ↑9 и ↓7+2
Комментарии4

Комментарии 4

Я-то думал. А тут три слова про обычный парсинг html, но в пафосном контексте.

Идея для следующей статьи: selenium. Некоторые сайты, где контент генерируется через JS прямо в браузере, не поддадутся BS, например, и «цифровой след» останется неполным! //это я скорее в качестве троллинга

P.S. Ещё и блоки кода картинками! :)

Спасибо за отзыв! Постаралась учесть комментарий.

import requests
url = 'https://www.google.com/search?q=object&sxsrf=APwXEdcTFNrK6vqIhKkA8ofiMVABpdXz3Q%3A1685681947166&ei=G3d5ZPDmCaqsrgSvxpLoBg&ved=0ahUKEwiw4KjN5qP_AhUqlosKHS-jBG0Q4dUDCA8&uact=5&oq=object&gs_lcp=Cgxnd3Mtd2l6LXNlcnAQAzINCAAQigUQsQMQgwEQQzINCAAQigUQsQMQgwEQQzINCAAQigUQsQMQgwEQQzIKCAAQigUQsQMQQzIICAAQgAQQsQMyCAgAEIAEELEDMg0IABCKBRCxAxCDARBDMg0IABCKBRCxAxCDARBDMgcIABCKBRBDMgsIABCKBRCxAxCDAToHCCMQigUQJzoECCMQJzoRCC4QgAQQsQMQgwEQxwEQ0QM6BQgAEIAEOgsIABCABBCxAxCDAToICC4QgAQQsQM6DgguEIAEELEDEMcBENEDOhIIABCKBRCxAxCDARBDEEYQ_wFKBAhBGABQAFjiC2DwDGgAcAF4AIAB2gOIAaALkgEJMC4xLjMuMC4xmAEAoAEBwAEB&sclient=gws-wiz-serp'
r = requests.get(url)

Скорее всего любезно отдаст вам код 403 (потому что стандартный user-agent python requests блокируется гуглом). А даже если и не отдаст попросит пройти рекапчу

Спасибо за отзыв! При выполнении кода ошибок не возникло, и далее ссылка на другой сайт была получена, но, действительно, часто требуется изменять заголовки или сделать что-то еще.

Отправка HTTP-запроса Google
Отправка HTTP-запроса Google
Получение ссылки на другую страницу
Получение ссылки на другую страницу

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории