turlych29 мар 2024 в 08:30

Парсинг веб-сайтов: взгляд изнутри

Простой

5 мин

26K

Python * Браузеры

Из песочницы

+10

Комментарии 10

Redduck119 29 мар 2024 в 11:11

Приходилось мне парсить сайты.
Большинство легко отдавали контент и не заморачивались защитой и не разу не легли сайты от моей нагрузки.
А те кто заморачивались всё равно отдали то что мне надо было.
Только я не на постоянной основе это делал, нужно было только один раз.

turlych 30 мар 2024 в 18:46

Примечательно, что некоторые сайты могут обнаружить, что их парсят и вместо того, чтобы возвращать ошибку 404, они могут предоставлять некорректные данные или даже искажать информацию.
Спарсите данные, а позже обнаружится, что они не соответствуют ожидаемым

Redduck119 1 апр 2024 в 08:03

Конечно некоторые могут и так заморачиваться, но на каждую хитрую гайку найдется свой болт.
Смотря какая цель, может даже и не нужен этот конкретный сайт и его проще заменить другим источником.
Лично мне нужно было сделать это один раз. Поэтому скрипты в консоле хрома мне помогали в трудных случаях. А капчу я сам разгадывал :)

lanseg 29 мар 2024 в 18:10

Для многих сайтов проще запустить какой-нибудь headless firefox и загружать сайты через webdriver/marionette

datelpiro 30 мар 2024 в 18:00

В свое время писали автоматизированный парсер. Локально работал, а на сервере не стал

turlych 30 мар 2024 в 18:12

Вероятно, проблема в использовании IP-адреса, который принадлежит датацентру. Такие адреса известны облачным службам типа Cloudflare.
Мы использовали прокси-сервер, проблем не было

lex08275 3 апр 2024 в 14:03

Если через селениум - мог браузер не запускаться из-за отсутствия графического окружения, например. Вариантов куча.

Sceptik 31 мар 2024 в 02:43

Если кто-то что-то выложил в сеть, то спарсить/соскрапить это лишь вопрос желания; «клаудфларе» школьникам только геморрой создаст. Честно говоря, не понимаю бизнесменов. Ну, дашь ты данные в открытый доступ - ну, чего ты паришься, что кто-то их соберет?

А селениум да, херабора бля тестеровщиков, очень медленная штука, если на то пошло то лучше уж плайврайт)

turlych 31 мар 2024 в 10:24

Если парсер будет отслеживать цены на маркетплейсах, то перепродавцы будут ждать понижения цены и автоматизированно скупать товар за дешево, чтобы потом перепродать. Из-за этого цена на товары для обычных людей увеличивается и интерес к площадке падает. Поэтому нужно бороться с парсерам.

Про Playwright спасибо, опробуем как будет время)

Enphliette 31 мар 2024 в 07:51

Спасибо нашим региональным архивам на системе АИС ЭЛАР: штука настолько медленная, что вдохновляет людей, далёких от веб разработки, разбираться, как достать оттуда данные.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий