Проблема может возникнуть с юзерами на нестандартных мобильных устройствах и только пока таких устройств мало. Как только набирается статистика, Canvas Hash перестает быть уникальным и такие посетители исключаются из базы ботов. На десктопах вариантов Canvas Hash меньше и там вероятность записать реального человека в бота очень мала. Но в любом случае, все зависит от сценария использования. Если на сайте критически важно не отсеить живых людей, можно им просто показать капчу, а не сразу завернуть. Можно показать капчу только в случае, если определяется как бот по параметрам и по поведению и с вероятностью выше 90%. Ну и т.д.
Честно говоря, обычное ML не пробовал. Задача определения по параметрам наверняка решится. Но основная, с прицелом на будущее, это все-таки детектирование по поведению. А там временные ряды - и сверточные слои, LSTM - первое что приходит в голову))
Самое очевидное - боты сильно искажают статистику. Непонятно, сколько реально прямых заходов, переходов из соц. сетей, а сколько ботов. Также они могут преднамеренно(услуги по ухудшению позиций конкурентов вполне себе предлагают) или непреднамеренно ухудшать поведенческие.
Можно резать ботов еще до загрузки HTML. Можно отдавать трекер только реальным людям. Делал и так, и так.
Для накрутки в основном используются боты)). Есть конечно всякие биржи типа qcomment, но погоды они не делают. Статистику в основном искажают боты на этапе прогрева, реальных людей греть не надо))
Датасет не планировал выкладывать.
Проблема может возникнуть с юзерами на нестандартных мобильных устройствах и только пока таких устройств мало. Как только набирается статистика, Canvas Hash перестает быть уникальным и такие посетители исключаются из базы ботов. На десктопах вариантов Canvas Hash меньше и там вероятность записать реального человека в бота очень мала. Но в любом случае, все зависит от сценария использования. Если на сайте критически важно не отсеить живых людей, можно им просто показать капчу, а не сразу завернуть. Можно показать капчу только в случае, если определяется как бот по параметрам и по поведению и с вероятностью выше 90%. Ну и т.д.
Честно говоря, обычное ML не пробовал. Задача определения по параметрам наверняка решится. Но основная, с прицелом на будущее, это все-таки детектирование по поведению. А там временные ряды - и сверточные слои, LSTM - первое что приходит в голову))
Самое очевидное - боты сильно искажают статистику. Непонятно, сколько реально прямых заходов, переходов из соц. сетей, а сколько ботов. Также они могут преднамеренно(услуги по ухудшению позиций конкурентов вполне себе предлагают) или непреднамеренно ухудшать поведенческие.
Можно резать ботов еще до загрузки HTML. Можно отдавать трекер только реальным людям. Делал и так, и так.
Для накрутки в основном используются боты)). Есть конечно всякие биржи типа qcomment, но погоды они не делают. Статистику в основном искажают боты на этапе прогрева, реальных людей греть не надо))
Как раз на прогреве они и ходят по информационным сайтам в массовом количестве.
Да, опечатка. На картинке верно.