Комментарии 15
Добрый день, как убрать следы использования selenium webdriver?
Добрый день!
Между действиями можно поставить случайную задержку по времени, чтобы не триггерить защиту от роботов, если она есть на сайте, который нужно спарсить
Я столкнулся с непосредственным определением работы webdriver в сайте с которого хочу получить информацию, window.navigator.webdriver - true. Selenium-stealth мне не помогло :(
undetected-chromedriver не помог?
А здесь смотрели?
https://stackoverflow.com/questions/53039551
Не знаю, рабочее или нет, просто первая строчка в поиске.
"Например, если часть контента подгружается с помощью API и JavaScript."
тогда программист пляшет и хлопает в ладоши. потому что ему не надо ковырятся в html, а можно сразу парсить json
Хорошо, можно другой сценарий рассмотреть)) Например — отправка и загрузка данных на сайте через AJAX
https://mir-kubikov.ru/
пытался спарсить как-то раз напрямую (озадачился вопросом - какой комплект выгоднее по цене за деталь :), впервые увидел защиту, когда в куках ключи шифрования, а сам контент с сервера прилетает зашифрованным и на JS декодируется на лету, тут уже селениум скорей выручит
а второй способ работает в headless режиме? Когда монитор не подключен (c vps например)?
Предпочитаю пользоваться регулярными выражениями с именованными группами.
Преимущества:
легко распарсить документ/строку с невалидной структурой
не требуется внешних библиотек-зависимостей
хорошая производительность и низкое потребление памяти во множестве распространённых сценариев
лаконичность
Недостатки:
чуть более высокий порог вхождения
Основы парсинга на Python: от Requests до Selenium