ohld 22 сен 2021 в 13:40

Как спарсить любой сайт?

6 мин

224K

JavaScript*Data Mining*Big Data*Открытые данные*Тестирование веб-сервисов*

Туториал

+60

Комментарии 90

SergeyEgorov 22 сен 2021 в 13:58

А еще будьте готовы арендовать несколько разных пакетов прокси на разных сервисах, когда столкнетесь с тем, что сайты, которые вы скрэпите начали включать защитные алгоритмы против любителей регулярного автоматического копирования их контента.

ohld 22 сен 2021 в 14:17

Всегда можно попробовать использовать сеть TOR как пул бесплатных прокси! https://github.com/mattes/rotating-proxy

НЛО прилетело и опубликовало эту надпись здесь

Layan 22 сен 2021 в 16:53

Обычно как раз против таких публичных прокси защита есть из коробки. Например, в AWS WAF она включается парой нажатий.

И, как показала практика, это почти весь вредоносный трафик отсекает.

SergeyEgorov 22 сен 2021 в 19:50

Именно этот вариант не пробовал. Честно говоря не очень верю в эффективность подобных средств, исходники которых правились в репозитории пять лет назад.

Я пробовал разного рода списки дешевых прокси за $10 в месяц три пачки. Неудачный опыт. Много ошибок обработки запросов, масса мертвых адресов, масса обрывов соединений. Нервотрепка в общем.

Субъективно, из того что я использовал, адекватные прокси услуги обычно стоят от $90-$100 долларов в месяц. Что называется "включил и забыл". Единственное за чем надо следить, это за остатком кредитов на балансе, которые списываются по мере пользования сервисом.

НЛО прилетело и опубликовало эту надпись здесь

ohld 22 сен 2021 в 14:24

Сложность с прокси начинается тогда, когда ты хочешь их использовать для Headless Browsers. Если ты подключил сервис, который биллит за каждый запрос, например https://www.zyte.com/smart-proxy-manager/, то будь готов открыть для себя очевидное:

Современные сайты делают ДЕСЯТКИ запросов в момент открытия страницы. А значит, тебя будут биллить за каждую картиночку, за каждый рекламный баннер, за каждый web analytics event. Есть решение использовать ad blocker chrome extension, чтобы грузить только то, что надо.

И тут начинается гонка вооружений.

SergeyEgorov 22 сен 2021 в 17:56

Нет такой проблемы. Есть сервисы с API, которые за дополнительную плату сами рендерят результирующую страницу со всеми яваскриптами и отдают тебе в готовом виде. При этом стоимость обычного запроса скажем 1 кредит, а стоимость запроса с рендерингом 5 кредитов. В общем вполне выгодное предложение, потому что действительно загрузка одной страницы способна сгенерировать сотню дополнительных запросов.

cry_san 23 сен 2021 в 08:15

-Есть сервисы с API, которые за дополнительную плату сами рендерят результирующую страницу

Можно пару ссылок?

SergeyEgorov 23 сен 2021 в 10:04

Я пользуюсь вот этими двумя:

https://www.webscrapingapi.com/

https://zenscrape.com/

cry_san 2 окт 2021 в 05:06

Хм, расчет от количества запросов.

Выходит дорого, если парсить, например, WB.

Пользуюсь https://brightdata.com, расчет от объема. Думал у вас лучше )

aborouhin 22 сен 2021 в 21:17

Сложность начинается, когда тебе, чтобы увидеть результат парсинга при жизни, надо парсить хотя бы несколько сотен тысяч страниц в день, а защита от парсинга начинает тебя блокировать уже после нескольких десятков штук оных.
Есть одна государственная, к слову говоря, база данных (уточняю, чтобы закрыть вопрос о этичности её парсинга, а юридических вопросов даже не буду касаться, там вообще мрак с этим), которую очень много кто на рынке хотел бы спарсить целиком и использовать для разумного, доброго, вечного... Однако ж ни у кого не получилось.
Около 50 миллионов документов (PDF) + несколько миллионов страниц со ссылками на оные - и буземно параноидальная защита, от которой живые-то пользователи страдают. Плюс всякие фокусы типа webassembly, игнорирование которого увеличивает степень паранойи на порядок.

НЛО прилетело и опубликовало эту надпись здесь

aborouhin 22 сен 2021 в 21:54

Ну там крайне специфическая ситуация, когда на государственной базе в качестве оператора оной сидит коммерческая организация, которая сама на эксклюзивном доступе к ней из своих коммерческих продуктов в основном и зарабатывает. Причём ответственный за базу госорган с этим ничего сделать не может. В общем, смешная история, но тут не хочу вдаваться в подробности. Так что ничего не слито, а стоимость договорённости с оператором базы измеряется не сотнями баксов, а как минимум сотнями тысяч их же. После чего тебе придётся конкурировать с построенными на этих данных коммерческими продуктами самогó оператора базы, который этих денег никому не платил.

Через пулы прокси получается скачивать ту информацию, которая нужна в конкретных случаях. Но полный доступ к базе открыл бы качественно другие возможности для аналитики.

Насчёт Толоки идея, к слову, неплохая, спасибо. Надо только прикинуть возможную скорость и стоимость. Сомнения в основном насчёт скорости. Ну и какой-нибудь инструмент для автоматизации нелёгкого труда толокеров на коленке создать. Подумаю на досуге.

НЛО прилетело и опубликовало эту надпись здесь

ohld 22 сен 2021 в 21:55

Про толоку - в точку! Иногда дешевле запрячь индусов руками собирать данные с вебсайта. Более того, это 100% легально, так как запрещают часто именно автоматизированный сбор данных.

gremlin244 22 сен 2021 в 23:04

Это нужно будет сильно заморочиться с тем как организовать проверки и всякое такое. А то толокеры вам такого наразмечают. Там народ уже очень ушлый. Амазон и Бинг вот сейчас балуются там иногда оценкой релевантности выдачи и тому подобным на всяких языках, очевидно никому там неведомых. Так астрологи сразу объявили неделю полиглотов, количество толокеров знающих, судя по профилю, японский, арабский, хинди и шведский выросло втрое. Не думаю что им понравится датасет в итоге, который они получат)

НЛО прилетело и опубликовало эту надпись здесь

gremlin244 23 сен 2021 в 01:31

Репутация там точно не работает. Точнее там есть какой-то рейтинг, но он вообще непрозрачный, считается черт знает как, и абсолютно ни на что не влияет. Но даже если бы влиял, там вполне процветает мультиаккаунтинг.

sinka463 5 дек 2024 в 01:08

Насчет индусов не знаю, но недавно делал приятелю парсер некоторых данных с букинг кома. Грабим селениумом всю страничку (делаем просто скриншот всей страницы), передаем в олламу для парсинга и анализа, и на выходе получаем json, который закидываем в базу данных. Для сверки на всякий случай туда же сохраняется скриншот. Сделать не сложно, работает конечно не в промышленных масштабах, но для моего приятеля было более чем достаточно. Для промышленных масштабов, все упирается в железо в основном. Если есть бюджет, то почему бы и нет.

VioletGiraffe 22 сен 2021 в 18:05

Меня эта проблема тоже беспокоит, как начинающего писателя поискового движка. Чтобы контент просто проиндексировать и честно на него сослаться — тоже нужно сначала распарсить. Какие могут быть решения для этой проблемы? Только грубая сила — куча прокси с разными IP, ну и не качать много страниц с одного сайта подряд?

vedenin1980 22 сен 2021 в 18:14

куча прокси с разными IP, ну и не качать много страниц с одного сайта подряд

Мне кажется, для поискового движка честнее один чистый IP, соблюдающий robots.txt, говорить «я поисковый бот» и делать запросы к разным сайтам по очереди, там чтобы между каждым запросом к одному сайту проходило много времени.

ohld 22 сен 2021 в 18:17

Насколько я понимаю, у поисковых краулеров есть волшебный user-agent, который пропускают всякие защиты. Как влететь в эту VIP тусовку не знаю. Можно попробовать прикинуться гугловым краулером, мб получится.

НЛО прилетело и опубликовало эту надпись здесь

mrBarabas 23 сен 2021 в 21:08

Это самый плохой совет, поисковые боты очень легко проверяются и чаще всего банятся в первую очередь именно псевдопоисковые боты.

BackDoorMan 23 сен 2021 в 16:26

Пакеты прокси - это для начинающих) Когда идет серьезная работа, то может спокойно пыхтеть ферма из десяток мобилок)

SergeyEgorov 23 сен 2021 в 18:09

Пакет мобильных прокси точно так же легко арендуется, так что это не более чем вопрос личных предпочтений и бюджета. У меня нет никакого желания строить фермы из мобилок, я предпочитаю специализироваться в разработке. Эксплуатация резидентных прокси ферм меня вообще никак не торкает. Это совершенно отдельный бизнес на мой взгляд.

korsetlr473 22 сен 2021 в 14:18

paputee как понимаю сейчас топ 1 ?

ohld 22 сен 2021 в 14:20

Если вы про puppeteer, то я не думаю, что есть top-1 of Headless browsers.

По умолчанию, все такие браузеры обвешаны метками "я автоматизированный браузер", которые часто легко детектируются анти-парсинг системами. Есть крякнутые Chromedrivers, в которых эти дыры убрали, например, вот: https://github.com/ultrafunkamsterdam/undetected-chromedriver

ArtyL 22 сен 2021 в 16:45

Puppeteer нынче никто не носит. Сейчас набирает популярность playwright. Он в активной разработке, функционально богаче чем pouppeteer, есть поддержка python и java от разработчика. Поддержка разных браузеров, не удалось сходить хромом, сходили Firefox.

cry_san 23 сен 2021 в 04:56

Дайте ссылку на playwright

Спасибо!

fougasse 23 сен 2021 в 07:57

https://letmegooglethat.com/?q=playwright

dark_gf 23 сен 2021 в 16:58

А этот playwright, сайт может его определить как автоматизированный браузер?

ohld 23 сен 2021 в 17:17

Как я понял, это просто обертка над Chromedriver - удобный интерфейс для него. Поэтому тут уже вопрос, насколько Chromedriver без следов автоматизации.

SergeyEgorov 22 сен 2021 в 18:00

У меня почти год уже как puppeteer основной рабочий инструмент скрэпинга и ни разу меня не забанили за `автоматизированность браузера`. Почти всегда банят за один и тот же IP источника исходящих запросов с высоким рейтом в единицу времени.

vedenin1980 22 сен 2021 в 18:10

и ни разу меня не забанили за

Существует «серый бан», когда боту выдают только кешированную информацию или даже неправильные данные причем не всегда, а с определенной частотой. В этом случае, вы даже часто не поймете, что забанены.

SergeyEgorov 22 сен 2021 в 19:59

Возможно мне пока просто "не повезло" и я не попадал на такие интеллектуальные контуры систем безопасности сайтов. В общем пока мои заказчики еще ни разу не обнаружили дезинформацию в распарсенных данных.

remzalp 22 сен 2021 в 14:23

Эх... Любил lxml, пока не встретил в первый раз на mir-kubikov.ru - расшифровка на лету. Только headless браузер из простых решений, а хотелось лишь получить табличку для вывода "наиболее выгодный набор лего по соотношению цены за кубик" :))

var ipp = {decrypt:function() {var decrypt = new JSEncrypt(); decrypt.setPrivateKey("MIIkKQIBAAKCCAEArbPJ2

Mapaxa864 22 сен 2021 в 22:49

М… Теперь понятно, чего у них сайт такой тормознутый… — расшифровывают что-то там на лету…

Ryav 26 сен 2021 в 11:07

Так и какой самый выгодный по итогу?

remzalp 26 сен 2021 в 15:26

Я в итоге сдался. Selenium - не мой стек, а задача была из категории "любопытно узнать и наверное покупать не буду"

20dev20 22 сен 2021 в 14:48

Да, это взять и начать парсить HTML разметку страницы. То есть, например, из <a href="https://okhlopkov.com">Cool website</a> достать ссылку. Это можно делать как простыми регулярными выражениями, так и через более умные инструменты (в питоне это BeautifulSoup4 и Scrapy) и фильтры (XPath, CSS-selectors).

Можно и регулярками, но до поры - до времени.

vedenin1980 22 сен 2021 в 15:25

Все-таки это далеко не любой сайт. Тут описаны простые случаи, где по сути нет защиты.

Бывают сайты, где стоят сложные системы обнаружения ботов/fingerprint и выдающие сложные капчи практически с первого же запроса, бывают сайты специально изменяющие html разметку или наоборот почти полностью ее убирающие. Или скажем хитро генерирующие страницу из html, так чтобы бот путался (то есть в html будет много div друг за другом, которые потом превратятся в большую таблицу, но без полноценного рейдинга сложно понять какой div в какое месте таблицу окажется). В ряде случаев дешевле всего прикрутить OCR и полноценную генерацию скриншота страницы.

ohld 22 сен 2021 в 15:34

Да, чудищ много на пути война.

Но кажется, что если юзер смог через свой браузер что-то открыть, то и скрипт сможет. Конечно же, стандартные хромдрайверы легко палятся. Поэтому придумали undetected chromedrivers, я кидал ссылку в соседнем комментарии.

vedenin1980 22 сен 2021 в 16:05

юзер смог через свой браузер что-то открыть, то и скрипт сможет.

Проблема не только открыть, но и получить данные.
Скажем в html может быть

<div>name2</div><div>test12</div><div>test11</div><div>test22</div><div>name1</div><div>test21</div>

которые в браузере превратятся в

name1 | name2

-----------------

test11 | test12

-----------------

test21 | test22

Но просто получить эту таблицу без полноценного рейдинга — сложно

Опять-таки ряд сайтов (бронирования гостиниц, авиабилетов и т.п.) может выдавать мусор (устаревшие или вообще неправильные данные), если считает, что их парсит бот (причем рандомно). В результате, можно все спарсить, успокоиться, а потом окажется, что результат ничего не стоит.

tempick 22 сен 2021 в 23:20

Но кажется, что если юзер смог через свой браузер что-то открыть, то и скрипт сможет

Ага, особенно когда контент доступен только авторизованному пользователю, а авторизация только через смс на номер телефона. Можно использовать виртуальные номера с получением смс через апи, только не всегда это окупается. А ещё капчу к этому прибавить…

bogolt 23 сен 2021 в 10:00

что за война у вас на пути?

НЛО прилетело и опубликовало эту надпись здесь

ohld 22 сен 2021 в 16:43

В тиктоке нет статей ?‍♂️

MentalBlood 22 сен 2021 в 17:21

Не слушайте, со смайликами реально веселей воспринимается, и это не минус, а плюс

Alexey2005 23 сен 2021 в 03:24

Сразу вспоминается старая шутка:
— Проклятье! — выругался китаец, разучивая начертание вот уже десятитысячного иероглифа. — А ведь начиналось-то всё с простых смайликов!

DEamON_M 22 сен 2021 в 17:53

Даже полез проверить если ли смайлики, подумал что их удалили может позже. Уже мозг их автоматически игнорирует как мусор (чем они по факту и являются).

НЛО прилетело и опубликовало эту надпись здесь

sim2q 23 сен 2021 в 08:41

Да ладно вам бурчать по мелочам.
Вот когда подпись над фото или ватермарки в фото или, О, ужас! крайний.... в тексте

НЛО прилетело и опубликовало эту надпись здесь

EmilLavrov 22 сен 2021 в 17:21

Спасибо за актуальную информацию!

kbaa 22 сен 2021 в 20:05

В моем личном списке автоматизация браузера стоит на самом последнем месте, когда ничего остальное не работает, или если надо что-то разово спарсить и лень заморачиваться анализом запросов. Потому что на задачах, подразумевающих частое и масштабное обновление собираемых данных, уже всплывает такая вещь, как потребление ресурсов простым скриптом и целым (пусть даже headless) браузером. Грубо говоря - тратишь день и потом гоняешь свой код на самом дешевом VPS или тратишь пару часов и твоя ферма браузеров уже просит что-то более дорогое чтобы работать.

За ссылку на Selenoid спасибо, любопытно. Когда я последний раз пробовал через автоматизацию браузера что-то делать, то новой фишкой в этом направлении был puppeteer xD

ohld 22 сен 2021 в 21:58

Да, онбординг в Headless browsers не очень. Но с remote Selenium grid / cluster жизнь становится сильно проще. Один раз настроив, я теперь всегда рендерю HTML даже перед извлечением JSON из страницы - все-таки при выполнении всего положенного JS, я убежден, сильно снижается вероятность попасть в бан.

kbaa 23 сен 2021 в 01:38

Обычно если на сайте используется какая-то хитрая защита - она довольно быстро даёт о себе знать. Последний раз я использовал автоматизацию браузеров для сбора данных при работе с сайтами типа linkedin и instagram, всё остальное что мне попадалось - работало через обычные запросы + прокси. Хотя у меня может быть выборка нерелевантная, я последний год почти не занимаюсь подобным сбором данных, да и когда занимался активней - то тут еще была доля азарта, смогу ли я запросами эмулировать всё что нужно или всё-таки не выёживаться и просто запустить хромиум))

AlexanderS 22 сен 2021 в 20:57

На самом деле это проблема — сделать себе текущую работоспособную копию сайта. Иногда бывает находишь полезные разделы на некоторых ресурсах, которые бы неплохо было сохранить, чтобы посмотреть их позже, в т.ч. когда интернета нет. Есть некоторые небольшие сайты на ладан дышащие с интересной тематикой. В середине 2000-ых с такой задачей неплохо справлялись HTTrack или Teleport. Но сейчас, в 2020-ых, в плане наличия актуального готового решения с этим беда.

ohld 22 сен 2021 в 22:06

Как мне кажется, эта проблема с каждым годом будет все менее актуальна. Особенно, когда сделают быстрый и дешевый спутниковый интернет.

AlexanderS 23 сен 2021 в 08:30

Проблему исчезающих сайтов это не решит. Далеко за примерами даже ходить не надо — пару лет назад buran.ru под угрозой был из-за конфликта интересов. Полноценного резерва контента у владельца не было и доступа к хостингу не было. А другой стороне на это было вообще наплевать.

edogs 22 сен 2021 в 22:53

Мобильные приложения сайтов зачастую выручают.
Во-первых, запросы/ответы более «чистые».
Во-вторых, нередко защита или отсутствует или минимальна.
Для парсинга форумов есть смысл проверять так же на подключение к tapatalk, благо многие подключены.

mjr27 22 сен 2021 в 23:00

Боль современного парсинга - это cloudflare и его hcaptcha по любому чиху. Решается только тонкой подгонкой комбинации заголовков, прокси и бубна. И то не всегда.

ohld 22 сен 2021 в 23:13

Cloudflare обходится легко) достаточно просто делать все медленно без надрывов. И с правильными настройками браузера.

cry_san 23 сен 2021 в 05:35

Можно конкретику?

НЛО прилетело и опубликовало эту надпись здесь

raamid 23 сен 2021 в 01:39

Я конечно извиняюсь, а что мешает у себя на компьютере сгенерировать пачку IPv6 адресов и с них парсить? По идее все они будут разными для сервера, который парсят. Насколько мне известно, нет четких критериев, что какой-то диапазон адресов принадлежит одному компьютеру.

ohld 23 сен 2021 в 10:36

Не знал про такой способ, спасибо. Поизучаю, как работает IPv6 и, возможно, попробую их использовать.

rogoz 23 сен 2021 в 15:54

нет четких критериев, что какой-то диапазон адресов принадлежит одному компьютеру

/64?

DCNick3 23 сен 2021 в 16:59

По стандарту — да, но некоторые ушлые провайдеры выдают /64 на абонента, где прячется несколько компов.

raamid 23 сен 2021 в 21:55

Очень хотелось бы понять мнение минусующих, а именно, вас не устраивает этический или технический аспект парсинга через IPv6? Также, приветствуется обоснование.

undersunich 23 сен 2021 в 15:58

Поделитесь опытом,кто нибудь пробовал парсить через распознование,например через оупен цв, интересен сам подход.Кто пробовал?

vedenin1980 23 сен 2021 в 16:52

OpenCV? В основном только распознавание капч или текста картинками. Там основная трудоемность в двух вещах:
OCR всегда допускает ошибки, если в тексте описка полбеды, то в ценах или важных числовых данных иногда ошибка в 1% равносильна бесполезному набору данных.
Во-вторых, часто. важно положение текста на странице и из картинки это получить часто сложнее (условно на одной линии слева у вас меню сайта, справа реклама, посредине важный текст, а OCR выдаст все скопом и часто нетривиально правильно распарсить данные).

raamid 23 сен 2021 в 21:58

Для парсинга, насколько мне известно, обычно используется Tesseract:

https://github.com/tesseract-ocr/tesseract

Сам я правда пока не использовал, только присматривался.

ohld 24 сен 2021 в 20:54

Использовал его, чтобы доставать текст с мемов - работал очень плохо. На скринах вебсайтов не тестил.

Saturnych 24 сен 2021 в 23:29

Я тессерактом и капчи распознавал, чтобы логиниться хедлесс на некоторых сайтах для доступа к сервисам.

И для демонстрации клиентам, что их "защита" – говно, а предыдущие разработчики взяли деньги не доделав.

Проверка на хедлесс есть умная с проверками браузера на тру.

В любом случае обычно вариант обхода защиты персональный для сайта.

YouROK 24 сен 2021 в 09:51

Если Flutter достигнет каких-нибудь высот, то и html не попарсить

Saturnych 24 сен 2021 в 23:30

Всё можно спарсить, что видит обычный браузер.

YouROK 25 сен 2021 в 07:31

В курсе как работает flutter?

Спросить можно все, но сколько это займет ресурсов.

Для тех кто не знает как работает flutter, он выводит в картинку содержимое, парсинг представляет собой скрин картинки и распознавание ее. А вот как парсер будет делать скролы и свайпы это другой вопрос, так как скролы происходят внутри

Не знаю можно тут выкладывать, вот мой тестовый сайтик, попробуйте спарсить хоть что-нибудь releases.yourok.ru самому интересно

Saturnych 26 сен 2021 в 13:43

Это не картинка, а canvas с JS и WebGL API.

А на Вашем сайте вся инфа из json-файлов подтягивается. Скачать всё заняло минимально времени. Т.к. кроме этих файлов другого контента там нет, то вот список (парсим JSON и получаем готовый сайт):
https://releases.yourok.ru/releases/movies.json
https://releases.yourok.ru/releases/4k.json
https://releases.yourok.ru/releases/tv.json
https://releases.yourok.ru/releases/cartoons.json
https://releases.yourok.ru/releases/cartoons_tv.json
https://releases.yourok.ru/releases/legends.json

Будет время, могу сделать клона онлайн.

init0 27 сен 2021 в 14:46

Еще никогда Штирлиц не был так близко к провалу

Saturnych 20 окт 2021 в 12:28

чот YouROK пропал. скрыл свой гитхаб, удалил данные с защищенного Flutter-сайта.

не случилось ли чего с ним? я переживаю...

VanJo 4 апр 2023 в 12:59

Будет ли интересно посмотреть сайт с которого невозможно "спарсить" контент, и каким либо образом вмешаться в работу самого сайта? Хотя для демонстрации мне придется восстанавливать свое демо, т.к. эта страница была ранее уже закрыта. Из интереса я мог бы это сделать, естественно в обмен на описание ваших попыток взлома:)

Для обновления html использую javascript и шифрование запросов, которое делает браузер. Тем не менее с помощью этого же браузера не удастся повторить эти действия и произвольно парсить сайт, впрочем как и с помощью С, или иных средств, и снифферов. Конечно Вы сможете вручную посмотреть код html и css, и вручную его и скопировать, но в копии не будет javascript, и потому парсить сайт в обычном понимании этого слова не получится, точно так же не получится и посылать запросы на сайт для получения осмысленных ответов, и уж тем более создать свой клон сайта. В интернете при желании можно найти также и известные способы, добавив которые будет невозможно даже вручную ни посмотреть ни скопировать готовый html из браузера, будет только визуальное отображение контента в обычном окне браузера, который скопировать можно лишь как картинку, с помощью PrintScreen и Ctr+v.

xPomaHx 3 окт 2021 в 08:21

Есть какой то смысл запускать headless не на своей машине? по моему опыту на 1 такой браузер в среднем уходит 50 мб памяти, а больше 20-100 потоков парсить смысла нет так как не всякий хост справится даже с этим.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий