Google Analytics. Осторожно боты


    Столкнулись с любопытной проблемой. На графике визитов видна интересная «ступенька». Мы обрадовались всплеску посещаемости. Но после анализа, выяснилось, что это боты.

    Если погуглить на тему «Google analytics и боты», в основном утверждается что боты не влияют на показания статистики в GA. Посыл такой — аналитика использует JavaScript для отслеживания посетителей. Боты, существа примитивные, JavaScript выполнять не умеют, и аналитикой соответственно не учитываются.

    Давайте разберемся в деталях.

    Анализ трафика


    Заметив необычный всплеск, мы решили локализировать его источник. Оказалось:


    Такой характер трафика мог быть, если в Цюрихе крупное локальное офлайновое издание написало о нас. В этом были большие сомнения. Мы продолжили «копать» дальше.

    До уровня IP адреса GA дойти не позволяет. Пришлось заглянуть в логи вебсервера. Трафик шел с одного IP. По логам, стало ясно что это боты. Запрашивались две страницы. Бот судя по всему был продвинут, выполнял JavaScript на странице, сохранял куки. Делал по несколько визитов для каждой сессии. Маскировался под приличного посетителя.

    Честно говоря, мы были удивлены, тем что, аналитика учла этот «мусорный» трафик. Поразмыслив, стало понятно, что фильтровать продвинутых ботов аналитике самостоятельно сложно. Тут вспомнили про функцию аналитики Intelligence Events. Аналитика показывается активность, которая выбивается из общей картины. Там действительно была отдельная запись которая связана с ботом. Нельзя сказать что информация там исчерпывающая, но почву для размышления дает.

    Как противодействовать?


    Первым делом попытайтесь найти источник трафика и его характеристики. В нашем случае, мы легко вычислили ботов, визиты были с одного IP. Если в работу включится ботнет, даже с несколькими десятками узлов, то определить такой трафик сложнее.

    Отфильтровать можно двумя способами:
    1. Если боты вам не мешают, то ставьте фильтр по IP или ISP в GA (Admin -> Account -> AllFilters):



      После этой операции, трафик с заданного IP учитываться не будет. Плохо то, что почистить накопленные данные нельзя.

    2. Более радикальный способ, это закрыть доступ на уровне файрвола или конфигурации вебсервера.


    Выводы


    — Некоторые боты могут влияют на показания аналитики;
    — Боты могут значительно искажать статистику в GA;
    — Если в аналитике появилась странная активность — попробуйте выделить признаки этого трафика и убедится что это не боты;
    — Загляните во вкладку «Intelligence Events», аналитика показывает сегменты трафика с нехарактерным поведением;
    — Не поленитесь посмотреть в логи вебсервера, там можно найти больше полезной информации для анализа;
    — Фильтруйте «мусорный» трафик.
    ХостТрекер
    Сервис мониторинга доступности сайтов
    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 24

      0
      Важно в фильтре указать "Exclude" для того что б трафик с данного IP не показывался.
        0
        А зачем бот заходил? Что-то парсить?
        Может есть догадки
          0
          Да, есть. Заходил на форму быстрой проверки сайта, и создавал проверки для нескольких сайтов.
            0
            А зачем ходить на эту страницу через поиск?
              0
              Не уверен что правильно понял вопрос. Вы имели в виду — зачем поисковому боту заходить на эту страницу?
                0
                Прошу прощения, я почему-то подумал, что на страницу ходят с поисковых систем
                  0
                  С поисковых систем ходят, это как бы ок. Проблема когда левые боты гуляют.
              0
              А зачем он это делал?
                0
                На 100% сказать сложно. Но скорей всего:
                1) «Накрутка» счетчиков посещаемости.
                2) Попытка устроить небольшой ДДОС нашими руками.

                Каждая запущеная проверка, генерит 15-20 запросов к проверяемому сайту из разных точек.

                Мы в свою очередь мониторим «нецелевое» использование сервиса, и пресекаем такие действия.
                  0
                  Интересно. А эта продвинутость бота (использование java-скриптов) — скорее, исключение, или распространенное явление?
                    +1
                    Я думаю, что пока, исключение. Но сейчас, написание таких ботов особой проблемы не составляет. Куча открытых как браузерных, так и яваскриптовых движков. Собрать на их основе бота с кастомным функционалом — дело не сильно сложное.
                      0
                      В простых случаях — подключают V8 и выполняют части JavaScript'а. В случаях посложнее юзают «браузеры без гуи»: ать, два. Медленее (надо отводить некоторое время на выполнение JavaScript'ов), но работает.
                      0
                      3) Автоматическая валидация результатов проверки доступности сайта.
                      Сканер доступности сайта ловит ошибку на проверяемом сайте и устраивает валидацию через ваш сервис. Всплеск больше всего похож на отладку бота-валидатора.
                        0
                        Тоже вариант, но тут не тот случай. Всплеском он выглядит потому что мы бота отстрерили. И для валидации городить огород с яваскриптом ообенно не нужно.
                          0
                          Для проверки отказа доступа из-за провайдера можно использовать. Выполнение JS тогда понадобится для парсинга результатов. Но если бота пришлось отстреливать, тогда да, предложенный мной вариант отпадает.

                          Если только не пытались нахаляву использовать ваш сервис для постоянного мониторинга сайтов. Хотя маловероятно, что такие наивные люди существуют.
                +2
                Ой прохнулся векой
                  0
                  А зачем нужно их блокировать? Пусть посещаемость учитывается, не? Уже не в моде?
                    0
                    Так какая ж это посещаемость? Это фикция. Которая портит общую картину статистику. Роботов фильтровать надо, если хотите чего полезного от статистики получить.
                      0
                      А разве больше посещаемость — не равно лучше для оптимизации?
                    0
                    Вообще немного странно. На графике виден только рост трафика (без указания продолжительности и хотя бы вилки — сколько было посещений и сколько стало). При этом если было 50 посещений, а потом в день 200, то такую «ступеньку» вполне мог накликать какой-то инициативный сотрудник за один день, которому необходимо было проверить кучу страниц одного сайта либо пачку различных сайтов.

                    Такой небольшой всплеск скорее находится на уровне статистической погрешности, чем серьезной проблемы. При этом описывать пути его устранения тривиальными средствами Google Analytics, указанными в официальном центре поддержки и сотни раз растиражированными блоггерами в рунете и за его пределами — весьма сомнительная затея.

                    Создается впечатление, что пост написан для того, чтобы указать одну ссылку на сервис компании.
                      0

                      На графике видны две полочки. Первая подлинней, это мы прощелкали, и не сразу отстрелили бота. Второй пик (о нем речь в посте) — когда бот был отстрелен быстрее. Про стат погрешность речи быть не может.
                        0
                        При этом мы видим активность только по дням. Если включить отображение по часам — какова интенсивность трафика? Он равномерно распределен в течении суток либо же имеет всплески в отдельные часы?
                          0

                          Распределение равномерное.
                      0
                      Похоже на работу через Selenium.

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое