Pull to refresh

Comments 9

вы похоже даже не исследовали вопрос, просто поговорили с нейросетью и все. куча всего готового и полуготового для обхода CloudFlare.

список инструментов в начале статьи (BeautifulSoup, Selenium, Playwright, Puppeteer) прям кричит о том "я понятия не имею что это и для чего"

кстати если вам просто пассивно скрапить открытые данные то в 90% справляется старый лайфак с translate.goog (CloudFlare и гугл-переводчик для скорости имеют связь напрямую, потому тупо запрос по таймауту "страницы перевода" отдает валидную страницу без необходимости обходить CloudFlare )

UPD

и для капч есть тоже много разного готового

вечная война щита и меча. и если вам не для любви к искусству и не для узкой задачи то лучше покупать услуги сервисов, что этим занимаются профессионально (относительно недорого)

кстати если вам просто пассивно скрапить открытые данные то в 90% справляется старый лайфак с translate.goog (CloudFlare и гугл-переводчик для скорости имеют связь напрямую, потому тупо запрос по таймауту "страницы перевода" отдает валидную страницу без необходимости обходить CloudFlare )

Можно пример кода?

прямой запрос на https://m.fanfiction.net/s/11515678 будет упиратся в CloudFlare (если с этого айпишника много запросов то каждый раз упиратся)

но запрос на https://m-fanfiction-net.translate.goog/s/11515678?_x_tr_sl=auto&_x_tr_tl=ru&_x_tr_hl=ru будет всегда отдавать оригинальную страницу (так как перевод и тд происходит средствами js)

Если страница прям максимально упакована в защиты CloudFlare это не поможет, но всякое пассивное на чтение (то есть 90% сайтов на CloudFlare) и что отдает контент сразу - можно грузить без каких либо прокси и капчи-прослоек

Гугл переводчик, если открывать из РФ, использует серверы из РФ и многие сайты не открывает из-за блокировок РКН, я не вижу там никакой прямой связи с cloudflare ведь это зависит от инет провайдера кеш сервера а не гугла. Если не из РФ открывать сайт с капчей (https://www.phoronix.com/forums/node/1631208), то в переводчике вижу пустую страницу. Что я делаю не так?

ну я не из рф потомуникаких проблем.

лайфхак для "всего остального мира" так сказать. хотя с ограничениями, в той же корее гуглперевод не работает но таких мест мало

я про это и написал

вот только "посерьезнее" это уже к платным аккаунтам относится, а большая часть на CloudFlare сидят на бесплатном

это я не с потолка взял, как раз до войны участвовал в разработке универсального парсера под всякое - что бы пользователь по АПИ параметры, а ему в ответ уже "чистую" страницу. На миллионах запросах будешь экономить на всем где это можно и лайфак с translate.goog срезал 70% запросов. И эти 70% потому что большая часть клиентов магазины и прочее скрапила, то есть хватало тех кто требовал js и прочих обработок.

Но все равно спасибо за такой метод. Честно не знал, что через переводчитк можно капчу обходить )

А чем scrapeling / ulixee не подошли?

Sign up to leave a comment.

Articles