alehyafimau Feb 11 2024 at 06:30

Об одном способе веб-скрапинга сайтов, защищенных Cloudflare

Medium

10 min

48K

.NET * C# * Google ChromeHTML * JavaScript *

From sandbox

+25

Comments 32

DennisP Feb 11 2024 at 06:50

Ну в общем-то все эти Chrome-драйверы есть обёртки для встроенного в Chrome Remote Debugging Mode. В Puppeteer можно явно указывать, к какому адресу/порту коннектится. Там, кстати, тоже есть свой stealth - puppeteer stealth plugin

alehyafimau Feb 11 2024 at 06:59

О как. Большое спасибо! Никогда не вникал в подноготную ChromeDriver’ов. Значит, путь всё тот же, но браузер получается более «голый», не обвешанный «следами» Selenium.

DennisP Feb 11 2024 at 10:32

Всё это не так просто. Насколько я понимаю, даже голый Хром в headless режиме оставляет следы. И эти stealth плагины борятся не столько со следами от Chrome- драйверов, сколько от самого Chrome. Есть сайты, на которых можно проеверить свой Хром на предмет известных следов headless режима, например вот

Rishquer Feb 11 2024 at 13:56

Вообще puppeteer спокойно может запускать любой chromium-based браузер установленный в системе. То есть оригинальный хром, или яндекс браузер например, со всем, что есть внутри него.

alehyafimau Feb 11 2024 at 18:16

Интересно. Прочитал про puppeteer. По сути он оперирует через тот же протокол Chrome Dev Tools, только более уверенно и с поддержкой всех обновлений. Смотрю, и порт под .NET есть https://www.puppeteersharp.com/ Нужно будет проверить, возможно, уменьшит необходимость вручную модифицировать legacy-библиотеку, как я это делал в статье.

DennisP Feb 11 2024 at 19:41

Он может и через firefox работать, но там есть нюансы в апи, которые надо учитывать

Grigory_Otrepyev Feb 11 2024 at 08:01

Как оказалось, дело здесь даже не в .NET, не в порте библиотеки под .NET, и не в том, что какой-то service не смог стартануть на localhost. И в экосистеме Python давно знают об этом. Cloudflare научился обнаруживать даже UndetectedChromeDriver, и теперь есть новое решение - stealth-обёртка. Можно обернуть свой ChromeDriver в stealth, и никакой Cloudflare об этом не узнает! В данном случае, портов под .NET я не нашёл, но, возможно, это и к лучшему.

О, спасибо. Пригодится. Плюс

Bagir123 Feb 11 2024 at 15:28

Сложноватый путь. Я парсил озон обычной библиотекой selenium, через debug port. Браузер запускается чистый, единственно cloudflare засекает использование chrome devtool. Но это обходится отключением драйвера от браузера на время проверки. А вот PerumetrX капча - вот это жесть...

interprise Feb 11 2024 at 20:04

Известно как они технически это делают?

Bagir123 Feb 12 2024 at 07:11

Кто они? Как cloudflare засекает selenium? Там проверяются переменные с помощью js, которые selenium оставляет в среде. Проверяется useragent, headers. Если норм, то потом делается рукопожатие браузера. Рукопожатие вроде бы содержится в самом движке chromium браузера. А он то знает управляют им или нет.

interprise Feb 12 2024 at 20:16

Очень не конкретно выразился, сори.
Вопрос касался вот этого фрагмента "единственно cloudflare засекает использование chrome devtool". С детектом selenium все более или менее понятно, он просто много следит, но как он определяет devtool подключение не совсем понятно.

eee Feb 18 2024 at 16:59

Предполагаю, что с помощью размера экрана, открытый девтул по дефолту занимает X пикселей в высоту

interprise Feb 18 2024 at 17:29

Мы говорим про подключение через порт протокола. а не открытия devtools. Я вот жду ответа от @Bagir123

Bagir123 Mar 10 2024 at 17:32

предлагаю зайти с помощью Selenium сюда https://www.browserscan.net/ru/bot-detection.
Как это засекается не знаю, но факт осатется фактом

interprise Mar 10 2024 at 17:34

Мы же говорили не о Selenium, а о DevTool.

"единственно cloudflare засекает использование chrome devtool"

Bagir123 Mar 10 2024 at 17:50

Не знаю о чем Вы говорили, я говорил о Selenium, что он использует Dev Tools. В отличии от того, что утверждается в статье обычным Selenium можно парсить Ozon через chrominium браузер с контролем его через debug port без использования хакерских библиотек типа Selenium Stealth.

sten30 Feb 11 2024 at 16:25

Зачем такие сложности, если есть ZennoPoster и BrowserAutomationStudio , которые обходят и решают Cloudflare ?

alehyafimau Feb 11 2024 at 16:27

Спасибо. Смотрю, что ZennoPoster вроде бы платный. BrowserAutomationStudio существует и в бесплатной версии. Надо будет попробовать, но хочется не решать Cloudflare, а именно его обходить.

sten30 Feb 11 2024 at 16:45

Я парсил 1.3 миллиона страниц сайта с решением hCaptcha. Тренировал как-то неделю нейросеть CapMonster для решения особенной текстовой капчи, для парсинга 4,3 миллиона страниц. Решать, не решать. У самурая нет цели, только путь.

AccountForHabr Feb 11 2024 at 16:31

Как странно видеть manual reset event и Task.Run вместе

alehyafimau Feb 11 2024 at 16:33

Скелет кода был взят из примера в github-репозитории, который не обновлялся около 6 лет. Буду благодарен за пример более современного варианта для достижения тех же целей.

rodion-m Feb 11 2024 at 19:55

Спасибо, подход интересный. Из статьи только не понял, поддерживает ли при таком способе автоматизированный переход на другие страницы?

alehyafimau Feb 12 2024 at 05:36

Ну по идее в самом протоколе есть метод Page.navigate. Мне он с дефолтной страницы Chrome не давал двинуться далее, т.к. блочил по same-Origin policy. Но я смотрю, что у него в параметрах можно передавать referrerPolicy, можно попробовать поиграться с этим.

marat2509 Feb 12 2024 at 05:31

Лично я в своих проектах использую CloudScraper для Python, и этого достаточно.

philosoph Nov 20 2024 at 05:28

Вот только что попробовал, не катит :-(

melt Feb 12 2024 at 23:36

Мы для задач по работе с веб-сервисами автоматически (не парсинг, а замена/упрощение человеческого труда) используем playwright.dev - разрабатывается Microsoft, поэтому .NET нативный. Работает так же по портам браузера.

Так как мы не боты, а работаем легально, то мы можем связываться с разработчиками сервисов для помощи. Работаем с банками, и вот однажды залетели, что пришлось реально просить помощи и просить добавить нас во все белые списки, чтобы не блокировали. Защита была отечественная. Не реклама, но вдруг кому интересно, то qrator.ru - ребята из Сколково.

virtuoz227 Feb 13 2024 at 04:59

Привет! Вместо стандартного движка Selenium WebDriver использую undetected_chromedriver, отлично обходит CloudFlare.

alehyafimau Feb 13 2024 at 05:01

Это хорошо. По ответам смотрю, что в экосистеме Python вариантов тьма. Я пробовал конкретно этот способ затянуть в .NET, тем более и порт библиотеки есть. Но столкнулся с проблемами, описанными а статье.