Dark_bear May 1 at 21:24

Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи

Medium

8 min

14K

Python * BrowsersGoogle ChromeDevelopment Management *

Review

Comments 10

gerbert_MX May 1 at 22:15

вы похоже даже не исследовали вопрос, просто поговорили с нейросетью и все. куча всего готового и полуготового для обхода CloudFlare.

список инструментов в начале статьи (BeautifulSoup, Selenium, Playwright, Puppeteer) прям кричит о том "я понятия не имею что это и для чего"

кстати если вам просто пассивно скрапить открытые данные то в 90% справляется старый лайфак с translate.goog (CloudFlare и гугл-переводчик для скорости имеют связь напрямую, потому тупо запрос по таймауту "страницы перевода" отдает валидную страницу без необходимости обходить CloudFlare )

UPD

и для капч есть тоже много разного готового

вечная война щита и меча. и если вам не для любви к искусству и не для узкой задачи то лучше покупать услуги сервисов, что этим занимаются профессионально (относительно недорого)

Devvver May 1 at 22:59

кстати если вам просто пассивно скрапить открытые данные то в 90% справляется старый лайфак с translate.goog (CloudFlare и гугл-переводчик для скорости имеют связь напрямую, потому тупо запрос по таймауту "страницы перевода" отдает валидную страницу без необходимости обходить CloudFlare )

Можно пример кода?

gerbert_MX May 1 at 23:24

прямой запрос на https://m.fanfiction.net/s/11515678 будет упиратся в CloudFlare (если с этого айпишника много запросов то каждый раз упиратся)

но запрос на https://m-fanfiction-net.translate.goog/s/11515678?_x_tr_sl=auto&_x_tr_tl=ru&_x_tr_hl=ru будет всегда отдавать оригинальную страницу (так как перевод и тд происходит средствами js)

Если страница прям максимально упакована в защиты CloudFlare это не поможет, но всякое пассивное на чтение (то есть 90% сайтов на CloudFlare) и что отдает контент сразу - можно грузить без каких либо прокси и капчи-прослоек

0ka May 1 at 23:06

Гугл переводчик, если открывать из РФ, использует серверы из РФ и многие сайты не открывает из-за блокировок РКН, я не вижу там никакой прямой связи с cloudflare ведь это зависит от инет провайдера кеш сервера а не гугла. Если не из РФ открывать сайт с капчей (https://www.phoronix.com/forums/node/1631208), то в переводчике вижу пустую страницу. Что я делаю не так?

gerbert_MX May 1 at 23:19

ну я не из рф потомуникаких проблем.

лайфхак для "всего остального мира" так сказать. хотя с ограничениями, в той же корее гуглперевод не работает но таких мест мало

Dark_bear May 2 at 05:46

Данный метод возможно и работает для сайтов по типу "https://m.fanfiction.net/s/11515678". Если уже что то посерьезнее, тут увы он даже не проходит демо "https://2captcha.com/demo/cloudflare-turnstile-challenge"

gerbert_MX May 2 at 12:03

я про это и написал

вот только "посерьезнее" это уже к платным аккаунтам относится, а большая часть на CloudFlare сидят на бесплатном

это я не с потолка взял, как раз до войны участвовал в разработке универсального парсера под всякое - что бы пользователь по АПИ параметры, а ему в ответ уже "чистую" страницу. На миллионах запросах будешь экономить на всем где это можно и лайфак с translate.goog срезал 70% запросов. И эти 70% потому что большая часть клиентов магазины и прочее скрапила, то есть хватало тех кто требовал js и прочих обработок.

Dark_bear May 2 at 12:11

Но все равно спасибо за такой метод. Честно не знал, что через переводчитк можно капчу обходить )

edggomes86 May 4 at 00:24

А чем scrapeling / ulixee не подошли?

Dark_bear May 31 at 18:45

UPD v0.0.2:

Выкатили обновление — добавили поддержку всех типов прокси с авторизацией: SOCKS5, HTTP, HTTPS. Теперь не нужно городить костыли под каждый протокол — всё работает из коробки.

Главная фича — замена прокси на лету через proxy_replacement() без перезапуска браузера. Локальный туннель поднимается всегда, даже если Chrome стартовал без прокси — можно подключить в любой момент сессии.

Также расширили иерархию исключений: теперь 6 гранулярных классов вместо 3 — можно точно поймать что пошло не так (неверные креды, таймаут, недоступный хост и т.д.).