![WEBO Pulsar WEBO Pulsar](https://habrastorage.org/getpro/habr/post_images/f44/cda/66c/f44cda66c1f584646a24a021b6bf89e6.png)
Забегая немного вперед, скажу, что ежедневно сайты теряют порядка миллиона посетителей. И примерно в половине случаев эти потери практически незаметны, потому что происходят либо из-за «плавающих» сбоев, либо из-за большого наплыва посетителей (и превышении времени ожидания ответа). Происходит это, к счастью, не так часто, но в финансовом плане эффект получается весьма ощутимым. Например, только avito.ru потерял за прошедшую неделю почти 140 тысяч посетителей.
Технология
Сеть серверов WEBO Pulsar сейчас включает 3 независимых точки (2 в Москве и 1 в Амстердаме), дополнительно каждую минуту проверяется ряд внешних точек, которые должны быть «всегда доступны». Только на основе этой информации делается вывод о недоступности какого-то конкретного ресурса.
Для составления рейтинга было выбрано несколько сотен сайтов с посещаемостью более миллиона человек в месяц, и для каждого из них раз в минуту проверяется возможность осуществления соединения (проще говоря: можно ли на сайт зайти из браузера, или же сайт ответит неправильно, с ошибкой или вообще не ответит). По накомпленным в течение недели данным и составляется сам рейтинг.
Реализация описанной технологии, конечно, не является тривиальной. Но самое интересное, на мой взгляд, заключается в сборе информации о посещаемости сайтов (для включения их в рейтинг и расчета потерь посетителей).
Посещаемость сайтов
Очень удобно, что примерно 2/3 сайтов использует статистику Liveinternet, в которой данные по посещениям за месяц открыты. Это существенно упростило задачу. Но что делать с оставшимися?
На помощь приходит Alexa, которая измеряет долю сайта в общемировом трафике. У нее есть распределение по странам и поддоменам, поэтому почти во всех случаях можно точно узнать, какая доля общемировых посетителей попала на интересующий сайт.
Только вот одна загвоздка: доля общемировых посетителей переводится в конкретное число, только если знать общее число пользователей Интернета (которых считает Alexa). И количество этих посетителей будет сильно варьироваться от стране к стране: т.е. из Штатов, например, обсчитывается половина пользователей, а из России — только 20%. Что же делать?
Здесь мы вспоминаем про пропорции и берем за основу данные Liveinternet. Построив две модели (для самых крупных и средне-крупных сайтов) мы можем, зная долю трафика Alexa, рассчитать примерное число пользователей веб-ресурса, для которого счетчик Liveinternet не установлен. Точность получается примерно 20%, чего вполне достаточно для проведения оценки и составления рейтинга.
Наиболее популярные веб-ресурсы Рунета выбирались на основе как самой статистики Liveinternet и рейтинга Alexa, так и рейтинга TNS. Комбинированные и перепроверенные данные позволили получить достаточно точную картину по популярным сайтам.
Для всех сайтов в рейтинге рассчитывается доступность (в терминах «девяток»), фактическое время простоя (в часах и минутах) и число посетителей, которые не смогли попасть на сайт. Зная доходность сайта (например, 25 или 50 копеек с одного посетителя), можно легко рассчитать убытки от его простоя. К сожалению, финансовая информация по доходам сайта является закрытой, в противном случае, мы бы автоматически подсчитали и убытки. :)
P.S. Сейчас рейтинг пересчитывается раз в сутки, охвачено порядка 150 топовых сайтов. Мы планируем довести это число до 250-300. По вопросам включения (или наличия) сайта в рейтинге можно писать нам на почту либо в комментариях к статье. Сейчас мы насчитали уже 1,3 млн. потерянных посетителей за неделю. С учетом охвата только 10-20%, получается озвученная выше цифра — миллион потерянных посетителей в день.