Измеряем динамику упоминания сущностей в информационном поле



    Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.

    Подробнее о том, что здесь происходит


    Мы занимаемся изучением сети интернет, в частности, имеем возможность за день обходить все зарегистрированные домены мира по мордам и обрабатывать информацию. Продукт достаточно сложный и в целом для популяризации изучения открытых данных мы запустили инстанст, который сканирует ежедневно топ 1 миллион сайтов мира по версии Алексы, обсчитывает контент по 300+ регуляркам и выводит показатели на дашборд.

    Для понимания интереса ранее была опубликована статья, результаты опроса которой нас не могли не обрадовать:



    Несмотря на откровенно жёлтый заголовок статья получила достаточно неплохую оценку, но главное:

    • 191 (52%) — однозначно заявили о своём желании провести исследование
    • 123 (34%) — мы записали вас в свою банду
    • 53 (14%) — ок, но вы заходите, если что

    ЦА — 314 пользователей хабра, мы не могли оставить вас без внимания и пошли пилить дашборд под эту дискотеку.

    Дашборд мы разместили на сайте statoperator.com


    Чтобы замеряя свои собственные показатели, вам было с чем их сравнить — мы выложили в открытый доступ данные по имеющимся сущностям в динамике за пару месяцев.

    • инстанс ежедневно, в 19:00 по МСК обходит список сайтов топ 1,000,000 (за час)
    • каждый успешный ответ веб-сервера разбирается всеми теми регулярками по сущностям, которые вы сейчас видите в легенде + те, которые добавите сами

    Все показатели и настройки при работе в дашборде прокидываются в урл.

    Как добавить регулярку?



    Заполнить форму

    Data source — header/html/text (в хедере ответа веб-сервера/в коде html/в выделенном из документа тексте)
    Regex type — тип регулярки: mentions/hosts (количество того, что находится в документе по регулярке/было что-то найдено или нет)
    JAVA regexрегулярка

    Тестировать удобно здесь

    Все адекватные регулярки появятся дашборде после очередной итерации.
    Поделиться публикацией

    Похожие публикации

    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 12

      0
      У вас на графиках явно видны паразитные выбросы от сплайн-интерполяции. Нужно кубические сплайны заменить на pchip или сплайны Акимы.
        0
        Можете показать пример, где паразитный выброс кардинально меняет картину?

        image
          0
          Кардинально — нет. Но шум и дребезг вносит. Это одна из тех вещей, которые стоит заметить однажды — развидеть уже невозможно.
        0
        Хотя бы раз увидеть пример успешного применения такой аналитики. Дескать:

        1. посмотрели на анализ
        2. ??????
        3. profit
          0

          Извините, кнопки бабло нет, есть только кнопка рандом)

            0
              0
              Для меня это выглядит вот так:

              1. Посмотрели на график
              2. Оценили, как прошла рекламная компания по запуску нового бесплатного антивируса
              3. ???????
              4. Profit!

              Всё-таки этот график в данном случае далеко не ключевой элемент оценки успешности компании.
                0
                а так?

                1) Посмотрели на график:


                2) Поняли, какие заявления политик делает для внутреннего потребления, а какие для внешнего
                3) Сформировали независимое мнение относительно происходящего
                4) Profit!
                  +1
                  Не совсем понял. Я думал по оси Y рассположено количество упоминаний, а не какая-то качественная характеристика.

                  То есть это графики активности политика в рунете и в забугорье, а не сути его высказываний.

                  Или я что-то упустил?
                    0
                    Все правильно, по Y расположено количество упоминаний. Но что вам мешает вывести количество упоминаний на русском языке, английском и сравнить?
                    На выходе у вас получаются графики активности политика в разных языковых сегментах.

                    На примере Захаровой: произошло что-то, она делает заявление, и заявление такое сильное вроде бы, ух мы кому-то что-то там покажем (ей по должности положено, как Директору Департамента информации и печати Министерства иностранных дел Российской Федерации), упоминание «Захарова» на русском скачет, все ресурсы обсуждают филигранную ответную реакцию нашего МИДа, мы смотрим в этот момент на рост упоминаний «Zakharova» и видим, что международное сообщество просто пропустило это заявление мимо ушей, никто даже не перепечатал. Такие дела
                      +1
                      Ясно, спасибо.
                  0
                  Вот вам еще яркий пример обратной ситуации, когда заявления политика практически идеально согласуются в англоязычном и русскоязычном сегменте:

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое