Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.
Подробнее о том, что здесь происходит
Мы занимаемся изучением сети интернет, в частности, имеем возможность за день обходить все зарегистрированные домены мира по мордам и обрабатывать информацию. Продукт достаточно сложный и в целом для популяризации изучения открытых данных мы запустили инстанст, который сканирует ежедневно топ 1 миллион сайтов мира по версии Алексы, обсчитывает контент по 300+ регуляркам и выводит показатели на дашборд.
Для понимания интереса ранее была опубликована статья, результаты опроса которой нас не могли не обрадовать:
Несмотря на откровенно жёлтый заголовок статья получила достаточно неплохую оценку, но главное:
- 191 (52%) — однозначно заявили о своём желании провести исследование
- 123 (34%) — мы записали вас в свою банду
- 53 (14%) — ок, но вы заходите, если что
ЦА — 314 пользователей хабра, мы не могли оставить вас без внимания и пошли пилить дашборд под эту дискотеку.
Дашборд мы разместили на сайте statoperator.com
Чтобы замеряя свои собственные показатели, вам было с чем их сравнить — мы выложили в открытый доступ данные по имеющимся сущностям в динамике за пару месяцев.
- инстанс ежедневно, в 19:00 по МСК обходит список сайтов топ 1,000,000 (за час)
- каждый успешный ответ веб-сервера разбирается всеми теми регулярками по сущностям, которые вы сейчас видите в легенде + те, которые добавите сами
Все показатели и настройки при работе в дашборде прокидываются в урл.
Как добавить регулярку?
Заполнить форму
Data source — header/html/text (в хедере ответа веб-сервера/в коде html/в выделенном из документа тексте)
Regex type — тип регулярки: mentions/hosts (количество того, что находится в документе по регулярке/было что-то найдено или нет)
JAVA regex — регулярка
Тестировать удобно здесь
Все адекватные регулярки появятся дашборде после очередной итерации.