Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.
Какая разница, у вас все-равно нет ничего кроме рейтинга. Вес мы раздаем только для того, чтобы можно было работать с «суммой рейтинга» группы сайтов. Эта сумма дает значения только в рамках рейтинга Алексы и того распределения по миллиону, которое она нам однозначно отдает. Можно строить любые предположения относительно трафика, придумывать экспоненциальные функции, но все это прохладные истории.
У вас есть некоторое количество сущностей, равномерно распределенных в зависимости от количества трафика на них, с порядковым номером от 1 до 1,000,000. Чем меньше значение, тем больше трафика. Действительно, в таком случае нет смысла складывать рейтинг, поэтому мы «переворачиваем» список отнимая от значения рейтинга 1,000,000 (по количеству сущностей), получаем отрицательное значение, которое по модулю будет соответствовать уже весу рейтинга (с небольшим сдвигом на единичку у сайта с последнего миллионного места, у него будет 0), итого получаем тот же список доменов в том же порядке, но со значением, которое можно складывать, т.к. оно уже спускается со 999999 (гугл со своим первым местом) до 0 для сайта на последнем месте из миллиона.
Если же вы имели в виду подсчет общей суммы рейтинга, то её все-равно как считать, у вас в любом случае натуральный ряд.
Алекса берет данные о посещаемости со своего тулбара, в основном. Люди ходят на сайты — тулбар отсылает стату, никакой магии. В миллион залететь достаточно просто, если у вас есть человек 50 в день — вы уже там. Такова реальность, Адалт контента не так много, как кажется. Думаю, если навести еще и контент аналитику хотя бы по описаниям роликов — то схлопнется еще больше.
За 1 час 10 минут был получен контент всех адекватно ответивших серверов до второго редиректа в состоянии n-грамм.
Рассчитывать скорость собственной системы имеет смысл отталкиваясь от количества данных, которые она генерирует. Я не знаю, что вы парсите и сколько пишете. Мы генерируем данных больше, чем скачиваем, по железу упираемся в скорость записи хардов. Чем резолвить — тоже важно.
— развернули кластер
— сделали 1,000,000 GET запросов
— проанализировали 785,169 документов
— выделили и обсчитали 588,086,318 n-грамм
— сгенерировали 769,459 документов для каждого домена из списка
— подняли интерфейс, настроили веб-сервис
— показали как работает анализ по n-граммам на примере новостного сайта, объяснили как смотреть по домену
— вывели средний показатель дуплицированности главных страниц всех самых популярных сайтов мира
и вы пишете первым комментарием к статье:
Можно было сформулировать какие-либо практические выводы в конце статьи. Сейчас сплошные сырые данные без анализа.
46,7% сайтов используют адаптивную вёрстку. Можно, конечно, опираться на личные предпочтения в процессе принятия решения о переводе сайта на резину, но это уже мейнстрим.
Более половины, вы, конечно, махнули. Статистика использования HTTPS.
10,6% на данный момент используют его по умолчанию. Но тренд, безусловно, хороший.
Интересный список. 16 миллионов можно обойти довольно оперативно. По возможности стараемся оказывать помощь людям, занимающимся исследованиями в образовательных/общественно полезных целях. Если вам требуется решить конкретную задачу — пишите в личку.
Там есть интересные вещи, в сравнении динамики на разных языках
У вас есть некоторое количество сущностей, равномерно распределенных в зависимости от количества трафика на них, с порядковым номером от 1 до 1,000,000. Чем меньше значение, тем больше трафика. Действительно, в таком случае нет смысла складывать рейтинг, поэтому мы «переворачиваем» список отнимая от значения рейтинга 1,000,000 (по количеству сущностей), получаем отрицательное значение, которое по модулю будет соответствовать уже весу рейтинга (с небольшим сдвигом на единичку у сайта с последнего миллионного места, у него будет 0), итого получаем тот же список доменов в том же порядке, но со значением, которое можно складывать, т.к. оно уже спускается со 999999 (гугл со своим первым местом) до 0 для сайта на последнем месте из миллиона.
Если же вы имели в виду подсчет общей суммы рейтинга, то её все-равно как считать, у вас в любом случае натуральный ряд.
После получения html страницы текст извлекается вот так
Очищается и разбивается на n-граммы.
Рассчитывать скорость собственной системы имеет смысл отталкиваясь от количества данных, которые она генерирует. Я не знаю, что вы парсите и сколько пишете. Мы генерируем данных больше, чем скачиваем, по железу упираемся в скорость записи хардов. Чем резолвить — тоже важно.
— развернули кластер
— сделали 1,000,000 GET запросов
— проанализировали 785,169 документов
— выделили и обсчитали 588,086,318 n-грамм
— сгенерировали 769,459 документов для каждого домена из списка
— подняли интерфейс, настроили веб-сервис
— показали как работает анализ по n-граммам на примере новостного сайта, объяснили как смотреть по домену
— вывели средний показатель дуплицированности главных страниц всех самых популярных сайтов мира
и вы пишете первым комментарием к статье:
У вас совесть есть?
46,7% сайтов используют адаптивную вёрстку. Можно, конечно, опираться на личные предпочтения в процессе принятия решения о переводе сайта на резину, но это уже мейнстрим.
10,6% на данный момент используют его по умолчанию. Но тренд, безусловно, хороший.