Обновить
39
0
Gordon Freeman@daocrawler

Информационные системы

Отправить сообщение

Предвыборная гонка глазами поисковых роботов

Время на прочтение2 мин
Просмотры12K


Мы ежедневно выполняем срез документов, расположенных на главных страницах миллиона самых посещаемых сайтов мира. Сегодня рассмотрим, как количество упоминаний кандидатов в президенты РФ коррелирует с происходящими оффлайн событиями.
Читать дальше →

Измеряем динамику упоминания сущностей в информационном поле

Время на прочтение2 мин
Просмотры4.6K


Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.
Читать дальше →

Чем занимались пиарщики РПЦ в день встречи Путина и Трампа на G20?

Время на прочтение2 мин
Просмотры32K


В рамках данной статьи мы будем проводить замеры динамики пульсации сущностей в информационном пространстве.
Читать дальше →

Считаем порносайты, оцениваем эффективность Роскомнадзора

Время на прочтение3 мин
Просмотры46K


Вся история началась с достаточно бурного обсуждения процентного соотношения порно vs. всё остальное. Дискуссия плавно переросла в тотализатор. Кто называет цифру ближе всего к «реальной», тот и в дамках. Ставки сделаны, ставок больше нет.
Читать дальше →

Пересечение морд доменов топ 1,000,000 по N-граммам

Время на прочтение2 мин
Просмотры8.8K
Задачей исследования является визуализация дуплицированности главных страниц доменов по пятисловным шинглам в рамках общей базы.


Читать дальше

Частотный словарь запрещённых сайтов

Время на прочтение1 мин
Просмотры32K


Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.
Читать дальше →

Сводные данные о зарегистрированных доменах второго уровня в зоне .RU

Время на прочтение3 мин
Просмотры16K
crawljob

Целью исследования являлось получение актуального списка всех активных доменов в зоне .RU, к 01.01.2016 зарегистрировано в которой было 5040277 имён. Приняли решение пройтись по каждому имени краулером и проанализировать результат.
Читать дальше →

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность