Pull to refresh

Comments 9

Как насчёт ботов более высокого уровня которые взаимодействуют напрямую с кодом страницы, например Selenium + Python + мобильные динамические прокси?

Был случай когда сайт донор без JS не работало, а там с JS какая-то защита отслеживало выполнение скриптов, аномальных нажатии, попытка имитировать нажатие клавиш и сохранение страницы.

Попытка открыть какие либо инструменты, или запустить расширение браузера приводило к закрытию вкладки.

Если мышку переместить на другое окно, то появляется заставка сайта "Loading..." для защиты от OCR и автоматизации.

Дополнительно сделали Data Poisoning, вплоть до шифрование части текста и визуализации контента через CSS.

Вот это я понимаю настоящей защитой, а не все эти костыли.

Проверил Selenium + Python: у FF вкладка намертво зависла, память потребляется, так и нагрузка на проц.

ПФ не крутят простыми http ботами: речь идет о высокоуровневых ботах с поддержкой JS, canvas, динамических прокси и т.п. KillBot сложный, нужно потратить время чтобы понять его.

А это не другой случай?

Как я понимаю автору - слегка пофиг на то что содержимое сайта будут парсить, ему надо чтобы по возможности не грузили сайт левой нагрузкое а схемы с защитой от OCR и прочим - чтобы не тянули контент.

Боты разные бывают и совсем для разных целей. Я вот как обычный пользователь тоже кое что использую но в моем случае (и насколько знаю - таких пользователей хватает) - для сайта (одного из конкретной группы) есть универсальный автоматический парсер но некоторые пробуют защищаться (обычно Cloudflare), защита обходится специализированной версией под конкретный сайт сделанный через автоматизацию и там - вовсе не в сотни потоков (смысла нет), капчу - пользователь и введет + есть вариант со спецрасширением в браузере которое по кнопочке делает свое дело. Все это обновляются теми кому это нужно. У как минимум одного сайта из группы все совсем по взрослому с рендерингом текста в картинках - ну пользуются им мало даже в обычных случаях(там еще и интерфейс неудобный в том числе на мобилках) а если совсем надо...автоматизация и Finereader решают и этот вопрос.

Интересная тема, подскажите один момент - вот есть боты для онлайн игр, использующие распознавание изображений, и имитацию действий мышкой/клавиатурой с произвольной задержкой. Если упростить, допустим, у нас есть AutoIt скрипт под конкретный сайт, который в настоящем браузере как настоящий юзер чего-то там кликает. Понятно, что по эффективности такой бот будет проигрывать. Но тем не менее, как быть в такой ситуации?

  • Случай AutoIt. AutoIt не взаимодействует с браузером, он использует автоматизацию интерфейса Windows, чтобы управлять браузером, имитируя действия пользователя. Т.е. в этом случае всё выглядит как будто это сессия настоящего пользователя - так как браузер управляется через WIN API - как и в реальном случае. Такая автоматизация может проколоться на "неожиданном контенте": можно продумать динамическое появление случайного графического блока (или звуковой сигнал локомотива), на который пользователь как-то отреагирует (дёрнет мышку), а автоматизация с распознавалкой и стальными нервами "не заметит". Тут может быть много нюансов, но подумать в эту сторону можно.

  • НО, если бот использует фреймворк браузерной автоматизации по типу BAS , то килбот его выявит. Так же не могу быть уверен что такие фреймворки для накрутки игр используют - там другая специфика.

Как правило этих ботов достаточно просто вычислить. Мышка двигается не как у человека, а из точки А в точку Б прыжком. Есть боты немного умнее - из точки А в точку Б по траектории и она обычно прямая). Есть те, которые - просто по ActiveX элементам кликают. В принципе, вы их и по тепловой карте увидите

Пользователи с тачскрином сразу идут нафиг :-)

Вычислить просто, но существование таких ботов свидетельствет только о том, что их никто не вычисляет, так как в противном случае давно бы сделали правдоподобную траекторию движения мышки - это тоже делается довольно просто, только несколько замедлит работу скрипта.
Из той же серии
- клики по кнопкам по одной и той же координате.
- одни и те же задержки между кликами.
- заход в одно и то же время/одинаковой периодичностью.

Всё это легко исправить, но зачем?
И всё это можно вычислять статистическими методами.
А не вычисляют потому что это довольно ресурсоемкая операция, особенно когда заходов миллионы.

Sign up to leave a comment.

Articles