Считаем, сколько посетителей находится сейчас на каждой странице интернет-СМИ, где есть новости, сравниваем эти цифры между собой и выводим двадцатку самых популярных страниц
Подсчитывается кол-во открытых сессий (сейчас на сайте) на страницах СМИ у которых стоит наш счетчик, все это группируется по страницам на которых «сидят» пользователи и по их идентификаторам, после из общего списка отбираются странички которые являются новостями, ищутся в нашей базе новостей из которой вытаскиваются заголовки, рубрики, регионы источников и другая метаинформация, фильтруются по заданному пользователем фильтру и подаются к столу. Перед подачей блюдо охлаждается :).
Напомните через пару месяцев, загляну. Пока, конечно, релевантности никакой. Например, из тридцатки Рамблера (даже) — первые два места в Вашем рейтинге — номера 16 и 28.
Ну если алгоритм не изменился, то на страницах сайта висит счетчик, по rss отслеживается что это статья, а не раздел и какая конкретно статья. Далее после загрузки страницы проходит 4 секунды и после этого засчитывается прочтение.
А числа нормальные, это ж для конкретной статьи, у сайта их много, кроме того на главной это за минуту примерно статистика, счетчики что показывают число посетителей на сайте считают 4-10 минут обычно промежуток. Если смотреть на 10 мин то там цифры как раз похожие на счетчик.
Трафик то на сайты гонится и покупается, там сотни статей могут быть забиты в трафикогенераторы.
Разрабатывал статистику. Очень плохо сделал, как сейчас могу судить, не знаю как оно до сих пор работает, по идее под нагрузкой должно валиться. Но или нагрузка не сильно изменилась, или сервер хороший, но код мой вроде не сильно трогали.
Интерфейсы не проектировал, но реализовывал (в плане отображения корректных данных).
Уже 2 года работаю в своей фирме (когда-то был стартап, поднятый собственными силами на собственные деньги).
Какие новости читают в интернете прямо сейчас?