Comments / Profile of daocrawler / Habr

Информационные системы

Чем занимались пиарщики РПЦ в день встречи Путина и Трампа на G20?

@daocrawler Jul 8 2017 at 10:53

График по Навальному в публичном доступе https://statoperator.com/research/russian-opposition-navalny/

Там есть интересные вещи, в сравнении динамики на разных языках

Чем занимались пиарщики РПЦ в день встречи Путина и Трампа на G20?

@daocrawler Jul 8 2017 at 07:50

График будет обновляться публично, посмотрим что будет за год

Нестандартное использование Twitter

@daocrawler Dec 31 2016 at 13:44

Какие у твиттера лимиты на отправку сообщений с одного акка?

Считаем порносайты, оцениваем эффективность Роскомнадзора

@daocrawler Oct 9 2016 at 14:24

Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.

Считаем порносайты, оцениваем эффективность Роскомнадзора

@daocrawler Oct 9 2016 at 11:35

Какая разница, у вас все-равно нет ничего кроме рейтинга. Вес мы раздаем только для того, чтобы можно было работать с «суммой рейтинга» группы сайтов. Эта сумма дает значения только в рамках рейтинга Алексы и того распределения по миллиону, которое она нам однозначно отдает. Можно строить любые предположения относительно трафика, придумывать экспоненциальные функции, но все это прохладные истории.

Считаем порносайты, оцениваем эффективность Роскомнадзора

@daocrawler Oct 8 2016 at 20:50

Вы понятия не имеете о том, что говорите.

Считаем порносайты, оцениваем эффективность Роскомнадзора

@daocrawler Oct 8 2016 at 20:13

Давайте я объясню.

У вас есть некоторое количество сущностей, равномерно распределенных в зависимости от количества трафика на них, с порядковым номером от 1 до 1,000,000. Чем меньше значение, тем больше трафика. Действительно, в таком случае нет смысла складывать рейтинг, поэтому мы «переворачиваем» список отнимая от значения рейтинга 1,000,000 (по количеству сущностей), получаем отрицательное значение, которое по модулю будет соответствовать уже весу рейтинга (с небольшим сдвигом на единичку у сайта с последнего миллионного места, у него будет 0), итого получаем тот же список доменов в том же порядке, но со значением, которое можно складывать, т.к. оно уже спускается со 999999 (гугл со своим первым местом) до 0 для сайта на последнем месте из миллиона.

Если же вы имели в виду подсчет общей суммы рейтинга, то её все-равно как считать, у вас в любом случае натуральный ряд.

Считаем порносайты, оцениваем эффективность Роскомнадзора

@daocrawler Oct 8 2016 at 18:18

Мне не позволяет законодательство публиковать этот список. Хорошо, что какие-то хакеры опубликовали его в формате domain,rank,ip,country

+24

Считаем порносайты, оцениваем эффективность Роскомнадзора

@daocrawler Oct 8 2016 at 17:53

Алекса берет данные о посещаемости со своего тулбара, в основном. Люди ходят на сайты — тулбар отсылает стату, никакой магии. В миллион залететь достаточно просто, если у вас есть человек 50 в день — вы уже там. Такова реальность, Адалт контента не так много, как кажется. Думаю, если навести еще и контент аналитику хотя бы по описаниям роликов — то схлопнется еще больше.

Пересечение морд доменов топ 1,000,000 по N-граммам

@daocrawler Aug 8 2016 at 13:27

Данные пишутся в HDFS

Пересечение морд доменов топ 1,000,000 по N-граммам

@daocrawler Aug 7 2016 at 23:22

У вас ошибка в расчёте. Но в целом всё примерно так, ~ 49 суток одна нода будет выкачивать миллиард. Проблемы быстро накачать нет.

После получения html страницы текст извлекается вот так
Очищается и разбивается на n-граммы.

Пересечение морд доменов топ 1,000,000 по N-граммам

@daocrawler Aug 7 2016 at 19:11

За 1 час 10 минут был получен контент всех адекватно ответивших серверов до второго редиректа в состоянии n-грамм.

Рассчитывать скорость собственной системы имеет смысл отталкиваясь от количества данных, которые она генерирует. Я не знаю, что вы парсите и сколько пишете. Мы генерируем данных больше, чем скачиваем, по железу упираемся в скорость записи хардов. Чем резолвить — тоже важно.

Пересечение морд доменов топ 1,000,000 по N-граммам

@daocrawler Aug 7 2016 at 16:18

Для того, чтобы написать эту статью, мы:

— развернули кластер
— сделали 1,000,000 GET запросов
— проанализировали 785,169 документов
— выделили и обсчитали 588,086,318 n-грамм
— сгенерировали 769,459 документов для каждого домена из списка
— подняли интерфейс, настроили веб-сервис
— показали как работает анализ по n-граммам на примере новостного сайта, объяснили как смотреть по домену
— вывели средний показатель дуплицированности главных страниц всех самых популярных сайтов мира

и вы пишете первым комментарием к статье:

Можно было сформулировать какие-либо практические выводы в конце статьи. Сейчас сплошные сырые данные без анализа.

У вас совесть есть?

Делать ли мобильную версию? 5 распространенных проблем, которые решает адаптивная верстка. Опыт Яндекса

@daocrawler Aug 3 2016 at 18:29

Статистика использования метатега viewport на сайтах из списка Alexa Top 1M

46,7% сайтов используют адаптивную вёрстку. Можно, конечно, опираться на личные предпочтения в процессе принятия решения о переводе сайта на резину, но это уже мейнстрим.

-2

Принцип Доверия (Trust) в HTTPS

@daocrawler Jul 17 2016 at 11:41

Более половины, вы, конечно, махнули. Статистика использования HTTPS.
10,6% на данный момент используют его по умолчанию. Но тренд, безусловно, хороший.

Так ли безопасны «топовые» сайты: исследуем рейтинг Alexa

@daocrawler May 26 2016 at 10:58

По какому списку определялись «вставки с blacklist-доменов»?

Еще раз о том, как не сделать из своей сети «решето»

@daocrawler May 13 2016 at 16:19

Сервис https://www.ssllabs.com/ssltest/ имеет dev версию, которая прямо сейчас (в отличие от основной), например, детектит OpenSSL Padding Oracle vulnerability (CVE-2016-2107), понижая статус сервера с A+ до C.

Частотный словарь запрещённых сайтов

@daocrawler Mar 30 2016 at 13:48

Парсер хабра подсказывает отличное решение.

Частотный словарь запрещённых сайтов

@daocrawler Mar 30 2016 at 13:27

Что вы понимаете под «странными» символами? Покажите пример. Робот/парсер — всё своё.

Частотный словарь запрещённых сайтов

@daocrawler Mar 30 2016 at 02:35

Интересный список. 16 миллионов можно обойти довольно оперативно. По возможности стараемся оказывать помощь людям, занимающимся исследованиями в образовательных/общественно полезных целях. Если вам требуется решить конкретную задачу — пишите в личку.