Pull to refresh

Comments 14

Пользователи с хоть сколько-то нестандартным набором плагинов или железом, или просто с хитрой корпоративной политикой безопасности, режущей/менячющей заголовки, передают вам пламенный привет. Вот еще совет в копилку: обязательно проверяйте WebGL: в лисе старше 100 версии он крашит браузер при использовании GLSL, которая не поддерживается старыми видекартами, во всяком случае на линуксах. Сразу отсеятся нищеброды.

Проблема может возникнуть с юзерами на нестандартных мобильных устройствах и только пока таких устройств мало. Как только набирается статистика, Canvas Hash перестает быть уникальным и такие посетители исключаются из базы ботов. На десктопах вариантов Canvas Hash меньше и там вероятность записать реального человека в бота очень мала. Но в любом случае, все зависит от сценария использования. Если на сайте критически важно не отсеить живых людей, можно им просто показать капчу, а не сразу завернуть. Можно показать капчу только в случае, если определяется как бот по параметрам и по поведению и с вероятностью выше 90%. Ну и т.д.

Не понятно в чем проблема этих ботов? Вы заметили увеличение bounce rate и пытаетесь его снизить за счет ограничения доступа ботов к сайту, до того как страница загрузит код трекера? Если трекер увидел посетителя, то ваши действия по ограничению его нахождения на сайте бессмысленны. Выкинув его через 20 секунд с сайта, вы просто увеличите ваш bounce rate. Для трекера такой бот будет выглядеть как посетитель, который пришел, ничего интересного не нашел и закрыл страницу. Если вы все это время не будете показывать трекер, проведете анализ и только потом загрузите трекер, то вы уменьшите ровно на это время длительность каждого визита. И это точно поднимет ваш bounce rate если вообще не приведет к бану за неестественное поведение.

Для накрутки поведенческих факторов используются реальные люди - исполнители. А боты на вашем сайте делают все что угодно, только не накрутка ПФ. Ну, например, они могут искать формы регистрации для спама на форуме или в комментариях. И я думаю, учитывая массовость этого явления, на ваше ранжирование в поисковиках спамботы влиять не должны.

Самое очевидное - боты сильно искажают статистику. Непонятно, сколько реально прямых заходов, переходов из соц. сетей, а сколько ботов. Также они могут преднамеренно(услуги по ухудшению позиций конкурентов вполне себе предлагают) или непреднамеренно ухудшать поведенческие.

Можно резать ботов еще до загрузки HTML. Можно отдавать трекер только реальным людям. Делал и так, и так.

Для накрутки в основном используются боты)). Есть конечно всякие биржи типа qcomment, но погоды они не делают. Статистику в основном искажают боты на этапе прогрева, реальных людей греть не надо))

Боты давно уже перед парсингом прогреваются

Как раз на прогреве они и ходят по информационным сайтам в массовом количестве.

75% из которых это боты и 25% реальные люди.

на картинке наоборот. кому верить?

Да, опечатка. На картинке верно.

А че сразу нейронка? Банальная logistics regression не работает?

Честно говоря, обычное ML не пробовал. Задача определения по параметрам наверняка решится. Но основная, с прицелом на будущее, это все-таки детектирование по поведению. А там временные ряды - и сверточные слои, LSTM - первое что приходит в голову))

Планируете выкладывать собранный датасет? Сейчас сами находимся на стадии сбора данных, пока собственного сайта нет, поэтому собираем реальных людей с краудсорсинга (решением каптчи), а ботов собираем с закупки мусорного интернет трафика на фальшивый сайт (и не решение каптчи).

Датасет не планировал выкладывать.

Такие сервисы уже есть.
например, botfaqtor.ru занимается защитой от ботов и от скликивания рекламного бюджета в Яндекс Директ и Google Ads.

Sign up to leave a comment.

Articles