Комментарии 10
Приходилось мне парсить сайты.
Большинство легко отдавали контент и не заморачивались защитой и не разу не легли сайты от моей нагрузки.
А те кто заморачивались всё равно отдали то что мне надо было.
Только я не на постоянной основе это делал, нужно было только один раз.
Примечательно, что некоторые сайты могут обнаружить, что их парсят и вместо того, чтобы возвращать ошибку 404, они могут предоставлять некорректные данные или даже искажать информацию.
Спарсите данные, а позже обнаружится, что они не соответствуют ожидаемым
Конечно некоторые могут и так заморачиваться, но на каждую хитрую гайку найдется свой болт.
Смотря какая цель, может даже и не нужен этот конкретный сайт и его проще заменить другим источником.
Лично мне нужно было сделать это один раз. Поэтому скрипты в консоле хрома мне помогали в трудных случаях. А капчу я сам разгадывал :)
Для многих сайтов проще запустить какой-нибудь headless firefox и загружать сайты через webdriver/marionette
В свое время писали автоматизированный парсер. Локально работал, а на сервере не стал
Если кто-то что-то выложил в сеть, то спарсить/соскрапить это лишь вопрос желания; «клаудфларе» школьникам только геморрой создаст. Честно говоря, не понимаю бизнесменов. Ну, дашь ты данные в открытый доступ - ну, чего ты паришься, что кто-то их соберет?
А селениум да, херабора бля тестеровщиков, очень медленная штука, если на то пошло то лучше уж плайврайт)
Если парсер будет отслеживать цены на маркетплейсах, то перепродавцы будут ждать понижения цены и автоматизированно скупать товар за дешево, чтобы потом перепродать. Из-за этого цена на товары для обычных людей увеличивается и интерес к площадке падает. Поэтому нужно бороться с парсерам.
Про Playwright спасибо, опробуем как будет время)
Спасибо нашим региональным архивам на системе АИС ЭЛАР: штука настолько медленная, что вдохновляет людей, далёких от веб разработки, разбираться, как достать оттуда данные.
Парсинг веб-сайтов: взгляд изнутри