Pull to refresh
39
0
Gordon Freeman@daocrawler

Информационные системы

Send message
График по Навальному в публичном доступе https://statoperator.com/research/russian-opposition-navalny/

Там есть интересные вещи, в сравнении динамики на разных языках
График будет обновляться публично, посмотрим что будет за год
Какие у твиттера лимиты на отправку сообщений с одного акка?
Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.
Какая разница, у вас все-равно нет ничего кроме рейтинга. Вес мы раздаем только для того, чтобы можно было работать с «суммой рейтинга» группы сайтов. Эта сумма дает значения только в рамках рейтинга Алексы и того распределения по миллиону, которое она нам однозначно отдает. Можно строить любые предположения относительно трафика, придумывать экспоненциальные функции, но все это прохладные истории.
Вы понятия не имеете о том, что говорите.
Давайте я объясню.

У вас есть некоторое количество сущностей, равномерно распределенных в зависимости от количества трафика на них, с порядковым номером от 1 до 1,000,000. Чем меньше значение, тем больше трафика. Действительно, в таком случае нет смысла складывать рейтинг, поэтому мы «переворачиваем» список отнимая от значения рейтинга 1,000,000 (по количеству сущностей), получаем отрицательное значение, которое по модулю будет соответствовать уже весу рейтинга (с небольшим сдвигом на единичку у сайта с последнего миллионного места, у него будет 0), итого получаем тот же список доменов в том же порядке, но со значением, которое можно складывать, т.к. оно уже спускается со 999999 (гугл со своим первым местом) до 0 для сайта на последнем месте из миллиона.

Если же вы имели в виду подсчет общей суммы рейтинга, то её все-равно как считать, у вас в любом случае натуральный ряд.
Мне не позволяет законодательство публиковать этот список. Хорошо, что какие-то хакеры опубликовали его в формате domain,rank,ip,country

Алекса берет данные о посещаемости со своего тулбара, в основном. Люди ходят на сайты — тулбар отсылает стату, никакой магии. В миллион залететь достаточно просто, если у вас есть человек 50 в день — вы уже там. Такова реальность, Адалт контента не так много, как кажется. Думаю, если навести еще и контент аналитику хотя бы по описаниям роликов — то схлопнется еще больше.
Данные пишутся в HDFS
У вас ошибка в расчёте. Но в целом всё примерно так, ~ 49 суток одна нода будет выкачивать миллиард. Проблемы быстро накачать нет.

После получения html страницы текст извлекается вот так
Очищается и разбивается на n-граммы.
За 1 час 10 минут был получен контент всех адекватно ответивших серверов до второго редиректа в состоянии n-грамм.

Рассчитывать скорость собственной системы имеет смысл отталкиваясь от количества данных, которые она генерирует. Я не знаю, что вы парсите и сколько пишете. Мы генерируем данных больше, чем скачиваем, по железу упираемся в скорость записи хардов. Чем резолвить — тоже важно.
Для того, чтобы написать эту статью, мы:

— развернули кластер
— сделали 1,000,000 GET запросов
— проанализировали 785,169 документов
— выделили и обсчитали 588,086,318 n-грамм
— сгенерировали 769,459 документов для каждого домена из списка
— подняли интерфейс, настроили веб-сервис
— показали как работает анализ по n-граммам на примере новостного сайта, объяснили как смотреть по домену
— вывели средний показатель дуплицированности главных страниц всех самых популярных сайтов мира

и вы пишете первым комментарием к статье:

Можно было сформулировать какие-либо практические выводы в конце статьи. Сейчас сплошные сырые данные без анализа.

У вас совесть есть?
Статистика использования метатега viewport на сайтах из списка Alexa Top 1M

46,7% сайтов используют адаптивную вёрстку. Можно, конечно, опираться на личные предпочтения в процессе принятия решения о переводе сайта на резину, но это уже мейнстрим.
Более половины, вы, конечно, махнули. Статистика использования HTTPS.
10,6% на данный момент используют его по умолчанию. Но тренд, безусловно, хороший.
По какому списку определялись «вставки с blacklist-доменов»?
Сервис https://www.ssllabs.com/ssltest/ имеет dev версию, которая прямо сейчас (в отличие от основной), например, детектит OpenSSL Padding Oracle vulnerability (CVE-2016-2107), понижая статус сервера с A+ до C.
Парсер хабра подсказывает отличное решение.
Что вы понимаете под «странными» символами? Покажите пример. Робот/парсер — всё своё.
Интересный список. 16 миллионов можно обойти довольно оперативно. По возможности стараемся оказывать помощь людям, занимающимся исследованиями в образовательных/общественно полезных целях. Если вам требуется решить конкретную задачу — пишите в личку.

Information

Rating
Does not participate
Registered
Activity