Как стать автором
Обновить
40
0
Gordon Freeman @daocrawler

Информационные системы

Отправить сообщение

Предвыборная гонка глазами поисковых роботов

Время на прочтение2 мин
Количество просмотров12K


Мы ежедневно выполняем срез документов, расположенных на главных страницах миллиона самых посещаемых сайтов мира. Сегодня рассмотрим, как количество упоминаний кандидатов в президенты РФ коррелирует с происходящими оффлайн событиями.
Читать дальше →
Всего голосов 34: ↑26 и ↓8+18
Комментарии26

Как мы изгоняли наркоторговцев из рунета

Время на прочтение3 мин
Количество просмотров55K


Сегодня мне хотелось бы поведать вам историю о том, как мы определяли сайты, торгующие наркотиками в рунете, о масштабах проблемы, об опыте взаимодействия IT компании с Роскомнадзором, депутатами, различными палатами, и почему на это больше не хватает зла.
Читать дальше →
Всего голосов 203: ↑177 и ↓26+151
Комментарии343

Измеряем динамику упоминания сущностей в информационном поле

Время на прочтение2 мин
Количество просмотров4.6K


Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.
Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии12

Чем занимались пиарщики РПЦ в день встречи Путина и Трампа на G20?

Время на прочтение2 мин
Количество просмотров32K


В рамках данной статьи мы будем проводить замеры динамики пульсации сущностей в информационном пространстве.
Читать дальше →
Всего голосов 99: ↑76 и ↓23+53
Комментарии35

Считаем порносайты, оцениваем эффективность Роскомнадзора

Время на прочтение3 мин
Количество просмотров46K


Вся история началась с достаточно бурного обсуждения процентного соотношения порно vs. всё остальное. Дискуссия плавно переросла в тотализатор. Кто называет цифру ближе всего к «реальной», тот и в дамках. Ставки сделаны, ставок больше нет.
Читать дальше →
Всего голосов 72: ↑62 и ↓10+52
Комментарии48

Пересечение морд доменов топ 1,000,000 по N-граммам

Время на прочтение2 мин
Количество просмотров8.8K
Задачей исследования является визуализация дуплицированности главных страниц доменов по пятисловным шинглам в рамках общей базы.


Читать дальше
Всего голосов 21: ↑13 и ↓8+5
Комментарии16

Частотный словарь запрещённых сайтов

Время на прочтение1 мин
Количество просмотров32K


Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.
Читать дальше →
Всего голосов 33: ↑28 и ↓5+23
Комментарии31

Сводные данные о зарегистрированных доменах второго уровня в зоне .RU

Время на прочтение3 мин
Количество просмотров16K
crawljob

Целью исследования являлось получение актуального списка всех активных доменов в зоне .RU, к 01.01.2016 зарегистрировано в которой было 5040277 имён. Приняли решение пройтись по каждому имени краулером и проанализировать результат.
Читать дальше →
Всего голосов 17: ↑14 и ↓3+11
Комментарии28

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность