Как стать автором
Обновить

Комментарии 15

Добрый день, как убрать следы использования selenium webdriver?

Добрый день!

Между действиями можно поставить случайную задержку по времени, чтобы не триггерить защиту от роботов, если она есть на сайте, который нужно спарсить

Я столкнулся с непосредственным определением работы webdriver в сайте с которого хочу получить информацию, window.navigator.webdriver - true. Selenium-stealth мне не помогло :(

"Например, если часть контента подгружается с помощью API и JavaScript."

тогда программист пляшет и хлопает в ладоши. потому что ему не надо ковырятся в html, а можно сразу парсить json

Хорошо, можно другой сценарий рассмотреть)) Например — отправка и загрузка данных на сайте через AJAX

а какая разница, что нам посылать через requests, html или ajax? selenium оправдан только тогда, когда мы не знаем, как сайт защищается. как только разобрались - выкидываем selenium и включаем 5. скорость

https://mir-kubikov.ru/
пытался спарсить как-то раз напрямую (озадачился вопросом - какой комплект выгоднее по цене за деталь :), впервые увидел защиту, когда в куках ключи шифрования, а сам контент с сервера прилетает зашифрованным и на JS декодируется на лету, тут уже селениум скорей выручит

а второй способ работает в headless режиме? Когда монитор не подключен (c vps например)?

если ты про селениум, то да, он может работать в headless режиме

Да, верно)

Предпочитаю пользоваться регулярными выражениями с именованными группами.

Преимущества:

  • легко распарсить документ/строку с невалидной структурой

  • не требуется внешних библиотек-зависимостей

  • хорошая производительность и низкое потребление памяти во множестве распространённых сценариев

  • лаконичность

Недостатки:

  • чуть более высокий порог вхождения

Зарегистрируйтесь на Хабре, чтобы оставить комментарий