Хотите знать, что в данный момент читают другие пользователи интернета?

    Глаз народаТогда предлагаю попробовать расширение для Google Chrome, которое позволяет исполнить это желание. Называется оно “Глаз народа” и по задумке должно показывать самое интересное из читаемого в данный момент пользователями сети.
    Если кратко, то суть его работы в следующем. Расширение отслеживает активность пользователя браузера, протоколирует информацию о том, куда и когда он “ходил” и периодически отсылает данные на сервер. Сервер в режиме реального времени интегрирует полученную информацию, формирует и поддерживает постоянно меняющийся рейтинг популярного контента. Этот рейтинг возвращается всем пользователям расширения в виде короткого списка ссылок. По сути происходит обмен посещенными страницами интернета, позволяющий узнать, что сейчас интересно другим людям.
    К достоинствам такого способа делиться посещенными ресурсами можно отнести следующее.
    • Оперативность. Все происходит почти в реальном времени. Посещение вами веб-страницы может отразиться на текущем рейтинге уже через 10-15 минут.
    • Объективность. Оценку привлекательности контента производит система, исключая субъективные желания пользователя.
    • Непринужденность. Пользователю самому не нужно делать ровным счетом никаких специальных действий. Только получать результат.

    Есть еще потенциальные достоинства, которые могут появиться в будущем, а также и определенные недостатки, но о них чуть ниже.
    А перед тем, как вы попробуете установить расширение или решите, что оно вам не надо, позвольте рассказать немного о том, почему это безопасно, как работает и для чего создавалось на самом деле.

    Идея, лежащая в основе подобной системы, довольно простая. Поэтому, когда она пришла мне в голову, я был уверен, что нечто подобное наверняка уже есть. Однако, поискав, близкого ничего не нашел и решил попробовать сделать сам. Скорее всего просто плохо искал. Поэтому, если кто поделится ссылкой на нечто схожее, с интересом посмотрю. В любом случае, возможное развитие этой системы, которое есть у меня в голове, наверняка отличается от чего-либо существующего и об этом также чуть ниже.

    Безопасность

    Наверное один из первых справедливых вопросов, который может возникнуть, заключается в следующем. А не получится ли так, что это расширение возьмет и начнет делиться конфиденциальной информацией, которая может находиться на просматриваемых пользователем страницах? Попробую ответить.
    Во-первых, расширение не отсылает никакого содержимого из просматриваемого пользователем контента. На сервер отправляются только URL посещенных страниц, сопровождаемые дополнительной информацией о поведении пользователя. На данный момент таковая состоит исключительно из времени, проведенном на соответствующем ресурсе. В этом можно убедиться, взглянув на файл background.html. Даже если бы расширение захотело это сделать, то оно бы не смогло, поскольку не содержит контент-скриптов, не обладая соответствующими разрешениями. Именно поэтому во время установки расширения вы не увидите предупреждения о том, что оно “может получить доступ к вашим личным данным на всех веб-сайтах”.
    Во-вторых, любой адрес, прежде чем попасть в рейтинг, проходит проверку со стороны сервера на доступность. Поэтому, если страница защищена от свободного доступа, то даже ее адрес совершенно точно останется “между нами”.
    В-третьих, алгоритм построения рейтинга устроен так, чтобы минимизировать вероятность появления в рейтинге “случайных” страниц. Имеются ввиду такие, которые формально открыты, но вы бы не хотели, чтобы они предстали перед глазами широкого круга зрителей. Главное, что препятствует возможности такого события, — это решительное преимущество тех страниц, которые посещались множеством разных людей.
    пример окна расширения 'Глаз народа'Тем не менее. В момент написания этого текста расширение еще не опубликовано в открытом доступе. Цель данного рассказа как раз в том, чтобы привлечь заметное число пользователей сразу после его публикации, обеспечив ему минимально-осмысленную работоспособность. Поэтому, кто-то из вас окажется в числе самых первых реальных пользователей. Относительный вес пользовательских ссылок, когда их число мало, по понятным причинам довольно высок. Чтобы смягчить эффект искажений, связанных с особенностями начального периода использования, я “ужесточил” некоторые параметры, регулирующие вероятность “высвечивания” пользовательских ссылок с одной стороны, а с другой, чтобы было не скучно, добавил возможность появления полуслучайных ссылок, ни как не связанных с пользовательской активностью. Именно их можно будет наблюдать в списке первое время (пример на картинке). Сам же список я пока сделал покороче. Когда же наберется энное число пользователей, этот внешний источник я отключу, а список станет подлиннее.
    Несмотря на все эти обстоятельства, если вы хотите стопроцентной гарантии непоявления определенных страниц в списке, то поначалу можно открывать их в режиме инкогнито (в этом режиме расширения по умолчанию блокируются).

    Как это работает

    Немного подробнее о том, как работает система.
    В основу оценки популярности ресурса положены две характеристики: число пользователей, посетивших его за определенное время, прошедшее с текущего момента, а также показатели индивидуального к нему интереса, проявленного каждым пользователем. Показатель интереса рассчитывается как нелинейная функция от проведенного за просмотром конкретной страницы времени. Учитывать только время — довольно грубо. Но для первой версии я считаю вполне приемлемо. В перспективе это можно усовершенствовать, если учесть дополнительные характеристики поведения, а также особенности самой страницы.
    как работает 'Глаз народа'Расширение измеряет времена для каждой веб-страницы и периодически передает накопленные данные на сервер, получая в ответ текущий список рейтинга. Понятно, что переданные данные отразятся на рейтинге в лучшем случае к следующему запросу. Интервал между запросами сейчас как правило равен пяти минутам, но эта величина переменная, которая может меняться при определенных обстоятельствах.
    Сервер полученные от пользователя данные складывает в его индивидуальную “копилку”. С определенной периодичностью сервер “распечатывает” копилки активных пользователей, вычисляет показатели интересов, приводит к своей шкале времени и интегрирует данные разных пользователей, превращая их в оценки популярности каждой имеющейся странички для каждого заранее определенного момента времени. С другой определенной периодичностью сервер производит построение рейтинга. Для этого анализируется массив накопленных “моментальных” оценок популярности на определенную глубину в прошлое. В процессе анализа эти рейтинги суммируются уже в окончательный. При этом учитывается число пользователей, посетивших страницу, а также актуальность каждого “моментального” рейтинга (более свежие — актуальнее). Имеющийся список страниц сортируется, отсекается, проверяется, фильтруется и становится текущим. Глубина просмотра — величина переменная, зависящая от текущей пользовательской активности. Диапазон — примерно от пары часов до полусуток.

    Развитие

    Я надеюсь, что даже в таком виде, как сейчас, данная система окажется кому-то интересной.
    Но для меня ее создание является только маленьким шагом, который возможно позволит приблизиться к реализации идеи, которая меня на самом деле интересует.
    Многие из нас ежедневно читают новости, ищут что-то свежее интересное для себя, исходя из своих личных предпочтений. Для этого мы пользуемся поиском, rss-ридерами, лентами друзей, просто пробегаем по любимым сайтам, а также используем еще кучу разных способов. Поток свежего контента сегодня немаленький и чтобы его отфильтровать, порой уходит немало времени. Да, существует множество способов настраивать этот поток, исходя из своих предпочтений, но это далеко не всегда срабатывает, само по себе еще требуя времени и усилий.
    В размышлениях над этой проблемой у меня как-то зародилась мысль о системе, которая бы изучала поведение человека в сети и на основе полученных данных сама обучалась на предмет его интересов. Основываясь на этих интересах, такая система автоматически будет строить и модифицировать при необходимости набор персональных фильтров, который она применит к потоку постоянно поступающего свежего контента. А пользователю будет предлагать уже “отборное” содержимое, не требуя от него никаких специальных действий.
    выделение групп пользоватлейВернемся теперь к нашей системе с расширением для браузера. В процессе своей работы она постоянно имеет некий “горячий” список посещаемых веб-страниц. Можно сказать, что множество элементов этого списка задает систему координат в многомерном пространстве, а значения соответствующих показателей интереса — положение связанной с определенным пользователем точки в этом пространстве. Если получится выделить группы близких между собой точек, удаленных в то же время от остальных, то мы получим разделение пользователей на группы со схожими в некотором смысле интересами. Тогда, если строить независимые рейтинги в рамках выделенных групп пользователей, получим уже множество списков, ориентированных на определенные интересы людей. И эти списки будут определяться не какими-то искусственными категориями типа “спорт” или “политика”, а более естественными разбиениями, которые, как можно надеяться, дадут релевантный интересам пользователей результат.
    Далее можно подключить анализ непосредственно содержимого страниц. Если научиться классифицировать контент, то станет реальным решать задачу подключения всего информационного потока, включая ту его часть, которая не охвачена пользователями системы.
    Не стоит конечно слишком буквально воспринимать приведенную модель с пользователями-точками в многомерном пространстве. Это иллюстрация возможности подхода, а реализация может несколько отличаться. Поскольку это пока в мыслях, то вдаваться в дальнейшие детали не стану. Конкретика должна быть основана на исследованиях данных, которые я и надеюсь получить с помощью развития текущей реализации системы.
    Вполне возможно, что результаты работы этой самой текущей реализации окажутся банальными и не интересными для вас, как для пользователя расширения. Но может быть понимание задумки подтолкнет к тому, чтобы все-таки приютить на какое-то время подсматривающий зеленый глаз (кстати, если кликнуть правым щелчком на кнопке расширения, то там есть вариант “Скрыть кнопку”).

    О недостатках

    Главным недостатком на сегодняшний день является отсутствие пользователей. Понятно, что результаты работы такой системы будут не слишком достоверными. Например, поскольку данная публикация появилась на Хабре, то по-началу и генерируемый рейтинг окажется своего рода рейтингом статей с Хабра. Остается надеяться, что это со временем само исправится.
    Также очевидно, что поскольку сейчас система никак предварительно не классифицирует поступающие к ней URL, довольно быстро верхние строчки рейтинга займут крупные сервисы типа GMail или главные страницы популярных ресурсов (например, habrahabr опять-таки). Думаю, что эти случаи надо будет постепенно и целенаправленно отфильтровать, организовав, возможно, отдельный рейтинг. Но пока я хочу вместе с вами посмотреть на то, что получится.
    Понятно, что по задумке хочется видеть в генерируемом списке что-то для нас интересное из того, что возможно мы пропустили по каким-то причинам. Нет гарантии, что предложенный метод оправдает эти ожидания. И я предлагаю не рассматривать эту систему в качестве альтернативы чему-либо, а лишь как еще один способ взглянуть на поток поступающей информации.
    Я не имею представления о том, сколько людей захочет установить у себя расширение, какая окажется нагрузка и как она будет распределена. Я конечно тестировал систему, но это был “искусственный” режим. Поэтому я заранее прошу прощения за возможные “недоразумения”, если что-то пойдет не так.
    Теперь, перед публикацией текста, я могу опубликовать расширение. А всем читателям желаю удачи в наступающем новом году!
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 16

      +3
      а как быть закрытими ресурсами? Допустим есть сайты доступ к которым имеют не все и круг пользователей строго ограничен, эти ресурсы тоже будут все показываться?

      Как будут обстоять дела с сайтами для корпоративного использования?
        0
        Попробую ответить цитатами из текста выше.
        "… любой адрес, прежде чем попасть в рейтинг, проходит проверку со стороны сервера на доступность. Поэтому, если страница защищена от свободного доступа, то даже ее адрес совершенно точно останется “между нами”."
        То есть закрытые ресурсы не могут быть показаны.
        Это касается и корпоративных сайтов.
        Если же ресурс как бы закрытый, но на самом деле открытый, то "… алгоритм построения рейтинга устроен так, чтобы минимизировать вероятность появления в рейтинге “случайных” страниц… Главное, что препятствует возможности такого события, — это решительное преимущество тех страниц, которые посещались множеством разных людей."
        Есть еще вариант, когда с технической точки зрения страница доступна, но в содержимом говорится о том, что доступ закрыт. Так обстоит дело, например, для страниц блога «Я пиарюсь», если ее открывает незарегистрированный пользователь. По идее, шансов попасть в рейтинг у таких страниц немного, но если попадет, то в списке появится заголовок страницы, сообщающей о закрытом доступе.
        +5
        > На сервер отправляются только URL посещенных страниц
        Казалось бы, причём здесь Мегафон?
          +1
          Возможно вы имеете ввиду историю с попаданием эсэмэсок клиентов Мегафона, которые они отправляли с сайта, в индекс Яндекса.
          Если бы у людей, которые отправляли сообщения, стояло описываемое расширение, то URL тех самых страничек кончно ушли бы на сервер. Но при наличии хотя бы нескольких десятков активных пользователей страница, которую 1 раз смотрел один из них, попасть на верх рейтинга не сможет. В этом отличие от Яндекса, который индексирует все подряд.
            0
            Да, я имею в виду именно эту историю. И, да, я понимаю, что рейтинг не даст странице с моей смской попасться на глаза. Меня пугает сам факт, что за мной следят. Личная жизнь и всё такое. Я ведь не могу быть уверен, что у вас кто-нибудь не сольёт базу и не будет парсить её на всякие Мегафоны и другие страницы, где УРЛ даёт доступ к приватным данным
          0
          > Главным недостатком на сегодняшний день является отсутствие пользователей.
          Естественная проблема любой соцсети: нет пользователей — нет контента — сложно привлечь новых пользователей. Не думали о том, чтобы до набора «критической массы» заимствовать список популярных ресурсов из каких-то уже существующих аналогичных проектов (типа раздела «What's hot» из GoogleReader'a, лент news2.ru, digg.com, топ livejournal и т.д.) или генерировать его вручную?
            0
            Да. То, что видно в списке сейчас, — тоже ведь из вне. Только там нет сязи с популярностью, поскольку рассматривалось это как очень временная мера. Но если с новыми пользователями будет туго, то этот вариант надо проработать получше. Думаю это правильно.
            А что вы имеете ввиду под вручную?
              +1
              Ну вручную в смысле в противоположность автоматической загрузке rss-ок наиболее популярных тем с разных ресурсов или для объединения и какой-то интелектуальной сортировки этих тем с нескольких сайтов.
                0
                Надо будет подумать в этом направлении.
            0
            Планируется выход плагина для firefox?
              0
              Поначалу хотелось бы посмотреть немного на то, как это может работать. Если идея окажется жиснеспособной, то сделать вариант для firefox вполне естественно.
              +1
              127.0.0.1 — WIN
                0
                >> Хотите знать, что в данный момент читают другие пользователи интернета?

                Нет.
                  +1
                  Начинание интересное, но видя, как мало имеется энтузиастов пользования юзерскриптами вообще, думаю, что прямым сознательныи образом она не пойдёт. Надо заинтересовать какой-то другой идеей для установки скрипта, чтобы сбор данных был естественной частью, а просмотр страниц других посетителей — полезным следствием. Как это сделать — можем подумать отдельно в личке или где-то в более долгоживущем блоге, чем статья на Хабре. Примеры направлений: Digg и Reddit — почти то же самое, только с сознательным выбором тех ссылок, которыми серфер хочет поделиться. Все они, и сервисы закладок, переживают не лучшие времена, хотя для них тоже есть плагины. Другое направление. Такие сети как Google+ и Хабр (да, даже он) открывает информацию из пользовательских закладок для всех. Первый — по желанию в настройках сети, второй — всегда открывает Избранное. Зато, второй сайт на этом свойстве позволит сделать более популярный для Хабра Сервис «Что добавляют в Избранное Хабра посетители Хабра?». Думается, и для G+ возможно подобное как субсервис. Возможно, уже кем-то построен (там аддоны для Хрома строят очень резво, следил поначалу).
                  P.S.: Статью видел сразу, но мысли пришли только сейчас :). Но она уже провалилась в историю и её не смотрят.
                    0
                    Насчет нежелания пользоваться скриптами вы правы. Особенно если учитывать, что скрипт что-то куда-то отсылает. Результат запуска системы это подтверждает.
                    С одной стороны, пользователи появились. С другой, их количество невелико и пересечение по ссылкам на посещенные страницы почти отсутствует.
                    В такой ситуации построить нормальный рейтинг не получается.
                    И естественной мыслью тогда действительно является создание гибрида, который будет черпать источник ссылок и информацию о их популярности снаружи. Тогда даже при малом числе пользователей можно показать что-то похожее на действительность.
                    В этом направлении сейчас и смотрю.
                    0
                    Прикольно, выглядит интересно…

                    но не покидает чувство, что доказывать измученным Нарзаном жаждущим приватности пользователям полной безопасности решения для их приватного просмотра… нушки, придется достаточно долго и недешево.

                    Дай Бог, чтобы я ошибался.

                    Желаю всяческих успехов!

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое