Razoomnick16 янв 2023 в 17:12

Парсим сайты с защитой от ботов

26 мин

72K

Настройка Linux * JavaScript * .NET * HTML * C# *

Туториал

✏️ Технотекст 2023

+15

Комментарии 17

t38c3j 16 янв 2023 в 17:39

Субъективно, но по опыту ничего проще чем puppeteer + extra-plugin-stealth не нашел, очень редко срабатывали защиты, и то они срабатывали скорее из-за нетипичного поведения, для быстрого прототипирования самое то, можно сосредоточиться на результате и не думать о палках в колесах

Razoomnick 16 янв 2023 в 18:24

Думаю, да, в определенных ситуациях это и есть оптимальное решение.

Я puppeteer не пробовал, но попробовал Selenium, насколько я знаю, у них примерно одинаковый принцип работы. Добиться стабильной работы в связке с C# не получилось, и я пошел делать расширение. Если бы получилось — остановился бы на нем.

Elementirex 17 янв 2023 в 07:38

В puppeteer имеется аналог selenoid или selenium hub?

Dangetsu-PK 28 фев 2023 в 22:30

Последний год имел тесное знакомство с парсингом амазона, ебея и волмарта. Вот волмарт послал куда подальше с этой связкой.

Проблема в том, что headless браузер выдает отрицательный результат при одной из проверок. И это никак нельзя обойти, кроме как писать инъекцию в код сайта.

Однако, если запустить headful браузер, то проблемы нет. Так что просто запихнул все в докер, подрубил туда графическую оболочку, и пошло поехало. Спокойно на 1к проксей это обкатывал.

Ну и да, я бы отметил, что эмуляция браузера под каждый запрос страницы как правило не нужна. Я обычно проводил первичную инициализацию через браузер, сохранял куки, затем эти куки юзал в обычных хттп запросах. Затем если ловил капчу - вызывал браузер для ее решения.

t38c3j 7 мар 2023 в 21:41

Проблема в том, что headless браузер выдает отрицательный результат при одной из проверок. И это никак нельзя обойти, кроме как писать инъекцию в код сайта.

Мне интересно по какому параметру был детект, сможете припомнить?

Dangetsu-PK 7 мар 2023 в 23:11

Тут описаны детали:
https://github.com/berstend/puppeteer-extra/issues/407#issuecomment-1338898362

Dangetsu-PK 8 мар 2023 в 01:30

А все, неактуально. Тут недавно статью написали, со способом обхода этой проблемы: https://habr.com/ru/post/716434/

tuxi 16 янв 2023 в 20:56

Можно попробовать на самой странице по таймеру делать document.location.reload();

Что то типа такого (раз в 5 секунд)
reloader = setTimeout(reload, 5000);

function reload(){
document.location.reload()

};

НЛО прилетело и опубликовало эту надпись здесь

kale 17 янв 2023 в 07:41

На linux можно обойтись без X-ов и танцев с фейковым монитором просто используя chrome-headless https://chromium.googlesource.com/chromium/src/+/lkgr/headless/README.md

Razoomnick 17 янв 2023 в 08:12

Спасибо за ссылку.

Возможно, я делаю что-то не так, но проверку cloudflare такой метод у меня не проходит.

НЛО прилетело и опубликовало эту надпись здесь

Razoomnick 17 янв 2023 в 11:28

Возможно, установить этот параметр в false будет достаточно для headless режима. А вообще, есть такая возможность? Протестирую, когда будет возможность.

Когда я исследовал работу Selenium, то дело было не в этом, там в контексте страницы появляется глобальная переменная вида "cdc_*", и требуется патч для драйвера.

Dangetsu-PK 28 фев 2023 в 22:31

Есть, но есть другая проверка, которую нельзя обойти

alex1478 17 янв 2023 в 16:18

Версия, которая, теоретически, не детектируется, не определяется при
первом посещении сайта запущенным браузером, но детектируется со второго
посещения. Почему — непонятно. Браузер нужно постоянно перезапускать.

Я видел пример такой реализации. Там код вебдрайвера загружался при первом обращении к его api, а не сразу при старте браузера. На самом деле самое эффективное прохождение cloudflare

Vasjen 24 фев 2023 в 18:07

Спасибо большое за туториал, сохранил на память. Парсил сайт под защитой Cloudflare, нужны были json в ответ на гет запрос. На удивление, хватило всего лишь подмены заголовка для проверки. А вот с доступам к изображениям такой подход не подошел, теперь есть над чем подумать и как реализовать обход.

AnVak 21 янв 2025 в 15:20

Как получали куки для заголовка?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий