Comments 9
вы похоже даже не исследовали вопрос, просто поговорили с нейросетью и все. куча всего готового и полуготового для обхода CloudFlare.
список инструментов в начале статьи (BeautifulSoup, Selenium, Playwright, Puppeteer) прям кричит о том "я понятия не имею что это и для чего"
кстати если вам просто пассивно скрапить открытые данные то в 90% справляется старый лайфак с translate.goog (CloudFlare и гугл-переводчик для скорости имеют связь напрямую, потому тупо запрос по таймауту "страницы перевода" отдает валидную страницу без необходимости обходить CloudFlare )
UPD
и для капч есть тоже много разного готового
вечная война щита и меча. и если вам не для любви к искусству и не для узкой задачи то лучше покупать услуги сервисов, что этим занимаются профессионально (относительно недорого)
кстати если вам просто пассивно скрапить открытые данные то в 90% справляется старый лайфак с translate.goog (CloudFlare и гугл-переводчик для скорости имеют связь напрямую, потому тупо запрос по таймауту "страницы перевода" отдает валидную страницу без необходимости обходить CloudFlare )
Можно пример кода?
прямой запрос на https://m.fanfiction.net/s/11515678 будет упиратся в CloudFlare (если с этого айпишника много запросов то каждый раз упиратся)
но запрос на https://m-fanfiction-net.translate.goog/s/11515678?_x_tr_sl=auto&_x_tr_tl=ru&_x_tr_hl=ru будет всегда отдавать оригинальную страницу (так как перевод и тд происходит средствами js)
Если страница прям максимально упакована в защиты CloudFlare это не поможет, но всякое пассивное на чтение (то есть 90% сайтов на CloudFlare) и что отдает контент сразу - можно грузить без каких либо прокси и капчи-прослоек
Гугл переводчик, если открывать из РФ, использует серверы из РФ и многие сайты не открывает из-за блокировок РКН, я не вижу там никакой прямой связи с cloudflare ведь это зависит от инет провайдера кеш сервера а не гугла. Если не из РФ открывать сайт с капчей (https://www.phoronix.com/forums/node/1631208), то в переводчике вижу пустую страницу. Что я делаю не так?
Данный метод возможно и работает для сайтов по типу "https://m.fanfiction.net/s/11515678". Если уже что то посерьезнее, тут увы он даже не проходит демо "https://2captcha.com/demo/cloudflare-turnstile-challenge"
я про это и написал
вот только "посерьезнее" это уже к платным аккаунтам относится, а большая часть на CloudFlare сидят на бесплатном
это я не с потолка взял, как раз до войны участвовал в разработке универсального парсера под всякое - что бы пользователь по АПИ параметры, а ему в ответ уже "чистую" страницу. На миллионах запросах будешь экономить на всем где это можно и лайфак с translate.goog срезал 70% запросов. И эти 70% потому что большая часть клиентов магазины и прочее скрапила, то есть хватало тех кто требовал js и прочих обработок.
А чем scrapeling / ulixee не подошли?
Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи