Pull to refresh

Comments 8

Статья интересная!

Но эта о другом, тут мы руками код сайта впихиваем

И это не обучение)

Боту GPTBot отдаются уже вырезанные теги из закаченного другими инструментами сайта, фактически сам бот не будет посещать сайт и запрещать смысла нет. Если я всё правильно понял

любой бот на selenium спотыкается о защиту cloudflare, так что это очень временный парсинг

Я парсеров не много делал, с такой проблемой не сталкивался

Даже интересно будет с Chat GPT обсудить и сделать обход защиты от ботов:)

selenium с определенной версии начал слать заголовок типа привет я selenium, его никак не выпилить и защита его сразу видит и лочит, так что можно в чат жпт не ходить

Чтобы такого не происходило, используют модифицированные драйверы для Selenium, например, undetected-chromedriver. Он перед каждым запуском патчит исполняемый файл драйвера.

пробовал, не везде в итоге прокатывает, есть защиты которые и это дело палят

Sign up to leave a comment.

Articles