Pull to refresh

Comments 10

Приходилось мне парсить сайты.
Большинство легко отдавали контент и не заморачивались защитой и не разу не легли сайты от моей нагрузки.
А те кто заморачивались всё равно отдали то что мне надо было.
Только я не на постоянной основе это делал, нужно было только один раз.

Примечательно, что некоторые сайты могут обнаружить, что их парсят и вместо того, чтобы возвращать ошибку 404, они могут предоставлять некорректные данные или даже искажать информацию.
Спарсите данные, а позже обнаружится, что они не соответствуют ожидаемым

Конечно некоторые могут и так заморачиваться, но на каждую хитрую гайку найдется свой болт.
Смотря какая цель, может даже и не нужен этот конкретный сайт и его проще заменить другим источником.
Лично мне нужно было сделать это один раз. Поэтому скрипты в консоле хрома мне помогали в трудных случаях. А капчу я сам разгадывал :)

Для многих сайтов проще запустить какой-нибудь headless firefox и загружать сайты через webdriver/marionette

В свое время писали автоматизированный парсер. Локально работал, а на сервере не стал

Вероятно, проблема в использовании IP-адреса, который принадлежит датацентру. Такие адреса известны облачным службам типа Cloudflare.
Мы использовали прокси-сервер, проблем не было

Если через селениум - мог браузер не запускаться из-за отсутствия графического окружения, например. Вариантов куча.

Если кто-то что-то выложил в сеть, то спарсить/соскрапить это лишь вопрос желания; «клаудфларе» школьникам только геморрой создаст. Честно говоря, не понимаю бизнесменов. Ну, дашь ты данные в открытый доступ - ну, чего ты паришься, что кто-то их соберет?

А селениум да, херабора бля тестеровщиков, очень медленная штука, если на то пошло то лучше уж плайврайт)

Если парсер будет отслеживать цены на маркетплейсах, то перепродавцы будут ждать понижения цены и автоматизированно скупать товар за дешево, чтобы потом перепродать. Из-за этого цена на товары для обычных людей увеличивается и интерес к площадке падает. Поэтому нужно бороться с парсерам.

Про Playwright спасибо, опробуем как будет время)

Спасибо нашим региональным архивам на системе АИС ЭЛАР: штука настолько медленная, что вдохновляет людей, далёких от веб разработки, разбираться, как достать оттуда данные.

Sign up to leave a comment.

Articles