Verz1Lka Jan 20 2024 at 07:01

Анализ системы защиты от ботов на примере letu.ru

Medium

40 min

Data Mining * JavaScript * Information Security * Web services testing * Reverse engineering *

From sandbox

+30

Comments 18

akakoychenko Jan 20 2024 at 10:59

Несколько раз перечитал ключевые моменты, но так и не понял - все, проделанное в статье, можно было заменить просто селениумом с хром драйвером, который перед началом парсинга (или в случае истекания срока куки) проходит челлендж, получает все куки, отдает их парсеру, который ходит с ними и таким же юзерагентом, пока не получит не 200 код?

Robastik Jan 20 2024 at 12:26

селениумом с хром драйвером

Это же чистосердечное признание бота.

Rishquer Jan 20 2024 at 13:55

Можно оргинальный хром(и почти любой хром based) например открывать. Я так пользовался через puppeteer, плюс есть плагины которые антидетект реализуют, для сервера(и по факту) получается обычный полноценный браузер.

akakoychenko Jan 20 2024 at 17:20

Почему же? Вы о мелких грязных лайвхаках, вроде наличия системной переменной или вызова функции, которые может применить сайт?

Думаю, такие детские грабли чем-то вроде https://pypi.org/project/undetected-chromedriver/ должны лечиться в один клик

Verz1Lka Jan 21 2024 at 08:38

Существуют способы обнаружения автоматизации, которые связаны с протоколом, по которому идёт обмен данными между браузером и скриптом. Chrome, как правило, автоматизируется при помощи CDP. Через него-же работают все фичи, которыми можно пользоваться, когда вы открываете DevTools.
Cуществуют способы и антибот системы, которые умеют определять, что у вас открыта консоль. Многие автоматизированные системы типа puppeteer не умеют из коробки проходить этот тест (даже если включить stealth-plugin).
Пример теста: https://verz1lka.github.io/x/runtime.html (попробуйте страницу с открытой и закрытой devtools консолью)

Другая проблема таких плагинов - как правило, они почти никогда не могут нормально перекрывать проверки, которые делаются внутри айфреймов.

akakoychenko Jan 21 2024 at 08:46

Так что, только самописный extension остаётся из простых и понятных вариантов?

yungd1plomat Feb 23 at 11:29

я лично пользуют camoufox, пока особо детектов не ловил, есть playwright интерфейс для питона, да и параметров для скрытия и эмуляции достаточно, может даже некоторым ад браузерам дать фору

sixxio Jan 20 2024 at 15:32

Может быть, если написать все асинхронно, то RPS будет значительно больше.
Но на уровне 1.2 RPS действительно можно использовать тот же Selenium и вариации на него, тоже такая мысль возникла, пока читал.

akakoychenko Jan 20 2024 at 17:09

Так а какое значение имеет RPS? Скраппер ходит мимо селениума во много потоков, открывая прямые TCP соединения с сайтом, и делая запросы только по сути. Хоть на чистом C++ может быть написан.

Селениум приходит на помощь скрапперу, условно, 1 раз в 5 минут, чтобы новые куки получить правильные, и скраппер, подставив их в соответствующий хедер, продолжил работу

sixxio Jan 20 2024 at 19:37

Условно, я к тому, что если у нас нет таргета в виде высокой скорости обращения и тд, а нам достаточно условных 1-2 запросов в секунду, можно в лоб все забирать через селениум.

Verz1Lka Jan 21 2024 at 08:39

Если начать масштабировать такие решения, предположим, хотим собирать 1M страниц каждый день - это будет очень дорого.

gressmc Jan 20 2024 at 11:33

Это к слову. Как бы ты не пытался защитится от парсинга своего продукта, вопрос только во времени когда кто то допытливый сможет раскрутить и разобраться. 100% защиты не бывает и не возможно придумать) Можно только усложнить и увеличить время для достижения этого.

Robastik Jan 20 2024 at 12:28

Обычно в браузер просто подсовывают фейковые характеристики, собранные с реальных пользователей.

Robastik Jan 20 2024 at 12:41

А посмотрите megamarket.ru? Я тут упоминал, в первую сессию они собирали отпечаток, со второй блокировали. Может с тех пор что-то и поменялось, не проверял. Сбер это же уровень, на котором стоит оттачивать мастерство)

1000 SKU собрать не проблема. Проблема - делать это каждый день)

zenno_cat Jan 20 2024 at 15:32

Спасибо, очень ценная информация, тяжело что-то найти на эту тему. Нужно будет детальнее изучить

1e100 Jan 21 2024 at 16:05

Оставлю ссылку на http://jsnice.org/ автоматом переименовывает все переменые и функции

yungd1plomat Feb 23 at 11:21

Довольно странно, что разреверсив всю эту пучину, вы не смогли переписать ее на Python. Если вдруг кому нужна реализация на питоне - можете глянуть тут. Переписал под Золотое Яблоко, думаю на всех сайтах суть та же и должно работать.

P.S. Кстати с Золотым Яблоком не получилось провернуть аферу с парсингом на запросах, после решения челленджа споткнулся на непроходимое шифрование уже со стороны самого сайта, так что дерзайте 😁

Verz1Lka Feb 24 at 08:30

Интерес пропал, т.к. задача была чисто исследовательская.

Классно, что вы сделали :)