Как стать автором
Обновить
25
0
Даниил Охлопков @ohld

CTO, Data Lead

Отправить сообщение

Однозначно лайк за годный контент, жду продолжения

Использовал его, чтобы доставать текст с мемов - работал очень плохо. На скринах вебсайтов не тестил.

Как я понял, это просто обертка над Chromedriver - удобный интерфейс для него. Поэтому тут уже вопрос, насколько Chromedriver без следов автоматизации.

Не знал про такой способ, спасибо. Поизучаю, как работает IPv6 и, возможно, попробую их использовать.

Cloudflare обходится легко) достаточно просто делать все медленно без надрывов. И с правильными настройками браузера.

Как мне кажется, эта проблема с каждым годом будет все менее актуальна. Особенно, когда сделают быстрый и дешевый спутниковый интернет.

Да, онбординг в Headless browsers не очень. Но с remote Selenium grid / cluster жизнь становится сильно проще. Один раз настроив, я теперь всегда рендерю HTML даже перед извлечением JSON из страницы - все-таки при выполнении всего положенного JS, я убежден, сильно снижается вероятность попасть в бан.

Про толоку - в точку! Иногда дешевле запрячь индусов руками собирать данные с вебсайта. Более того, это 100% легально, так как запрещают часто именно автоматизированный сбор данных.

Насколько я понимаю, у поисковых краулеров есть волшебный user-agent, который пропускают всякие защиты. Как влететь в эту VIP тусовку не знаю. Можно попробовать прикинуться гугловым краулером, мб получится.

В тиктоке нет статей ?‍♂️

Да, чудищ много на пути война.

Но кажется, что если юзер смог через свой браузер что-то открыть, то и скрипт сможет. Конечно же, стандартные хромдрайверы легко палятся. Поэтому придумали undetected chromedrivers, я кидал ссылку в соседнем комментарии.

Сложность с прокси начинается тогда, когда ты хочешь их использовать для Headless Browsers. Если ты подключил сервис, который биллит за каждый запрос, например https://www.zyte.com/smart-proxy-manager/, то будь готов открыть для себя очевидное:

Современные сайты делают ДЕСЯТКИ запросов в момент открытия страницы. А значит, тебя будут биллить за каждую картиночку, за каждый рекламный баннер, за каждый web analytics event. Есть решение использовать ad blocker chrome extension, чтобы грузить только то, что надо.

И тут начинается гонка вооружений.

Если вы про puppeteer, то я не думаю, что есть top-1 of Headless browsers.

По умолчанию, все такие браузеры обвешаны метками "я автоматизированный браузер", которые часто легко детектируются анти-парсинг системами. Есть крякнутые Chromedrivers, в которых эти дыры убрали, например, вот: https://github.com/ultrafunkamsterdam/undetected-chromedriver

Всегда можно попробовать использовать сеть TOR как пул бесплатных прокси! https://github.com/mattes/rotating-proxy

Сообщения не будут теряться и в случае вебхука. Если по какой-либо причине вы не ответили 200 на вебхук, телега сделает retry и отправит его еще несколько раз.
Видимо, это был условный «кремлебот», так как его комментарий никак не связан с темой статьи :)
Так можно про все сказать) за всем всегда стоит человек / группа людей. А также законы и чьи-то интересы.
Я считаю, чтобы понести огромные убытки, нужно сначала создать бизнес / продукт, который генерит огромные прибыли. Иначе можно очень долго готовиться, но так ничего и не сделав прекрасного. Если я не буду делать ничего сомнительного, меня не отключат. От человеческого фактора спасают простейшие бекапы.
В случае высоких нагрузок на тг бот, команда телеграма заопенсорсила часть Telegram Bot API, которую можно развернуть на своем сервере: github.com/tdlib/telegram-bot-api Для очень высоконагруженных ботов это оправдано.
1

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность