Blippex — википедия поиска

    Сегодня рынок поисковых систем представлен довольно многим количеством сервисов, лидерство среди которых конечно же что занимает Google. Конкуренты, среди которых есть серьезные игроки такие как Microsoft Bing, Yahoo, Yandex, DuckDuckGo стараются не отставать в гонке. Но почти все эти системы имеют одну общую черту — они пытаются имитировать и дублировать алгоритмы Google. Кто-то уделяет внимание персонализации поиска, кто-то же заботится об анонимности и приватности пользователей, но все стараются предоставлять практически идентичные поисковые результаты.

    Blippex — википедия поиска, это новая поисковая система, одна из немногих которые не пытаются клонировать Google. Мы считаем что для того чтоб обязательно составить конкуренцию поисковым лидерам не обязательно и даже не нужно предоставлять такие же результаты поиска как и у других систем. Мы считаем что стремление показывать практически идентичные результаты является сдерживающим фактором развития поисковых систем в последнее десятилетие.



    Поисковая система Blippex использует другой подход к созданию поискового индекса и, как следствие, другой алгоритм поиска и ранжирования результатов. Наша идея заключается в том, что поисковую информацию должны предоставлять сами пользователи. Такой подход чем-то напоминает Википедию, только в отличии от Википедии, наши пользователи не должны делать что-то вручную, а могут лишь поставить специальное расширение для браузера, которое анонимно будет отправлять информацию о посещённых страницах и помогать нам строить поисковый индекс и влиять на важность информации.



    Мы считаем, что количество времени, потраченного на просмотр определенной страницы или сайта является хорошим показателем важности и релевантности информации. Мы называем этот алгоритм DwellRank. Как известно поисковая система Google использует алгоритм PageRank, который построен на анализе взаимосвязей страниц и сайтов между собой. Конечно же что DwellRank учитывает не только время проведенное пользователем на странице, берутся в расчет и показатели количества посетителей, длины контента, популярности сайта в целом.

    Blippex уделяет большое внимание анонимности и приватности пользователей. Мы не собираем и не храним никакой персональной информации о наших пользователях. Все что нам нужно для построения поисковой системы — это лишь адрес страницы и время проведенное на ней. К слову, исходный код плагинов является открытым, так-что любой желающий может удостовериться в тех данных, которые собирает плагин. К примеру поисковая система Google не может похвалиться анонимностью, ведь персонализация результатов поиска и реклама являются основным бизнесом и доходом корпорации. Более того ежемесячно мы выкладываем дамп нашей базы в свободный доступ.



    Совсем недавно мы сделали еще один шаг к обеспечению большей анонимности — мы предоставили опцию пиринговой (peer-2-peer, WebRTC) сети для нашего расширения под браузер Chrome. Главной целью нововведения является обеспечить большую анонимность данных о посещении какой-либо страницы. В нашем случае вместо прямой отправки на сервер, информация прежде пройдет через случайное число других клиентов, чем обеспечит невозможность выяснения оригинального отправителя.

    На данный момент сервис находится на стадии beta, ежедневно мы имеем около 50 тысяч уникальных посещений и около 400 — 500 тысяч поисковых запросов. Поисковый индекс составляет 10 миллионов страниц. Некоторые поисковые запросы все могут все еще выдавать неожиданные результаты, но мы усиленно работаем над улучшением наших алгоритмов. Любой желающий может помочь нам установив наше расширение Разнообразие данных помогает нам осуществлять лучшую настройку самого поиска ну и конечно же обеспечивать лучшие результаты. В любом случае запуск поисковой системы Blippex породил много живых дискуссий и обсуждений и дал нам четко понять, что такой продукт имеет будущее, ведь люди свойственны доверять тому, что создано простыми людьми для простых людей, а мы пока активно работаем над улучшением алгоритмов поиска и над новым функционалом.
    blippex
    Company
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 31

      0
      Каков должен быть поисковый запрос, чтобы увидеть в выдаче главную страницу любого популярного сайти — вики, гугла, яндекса, хабра, BBC, Apple, Microsoft, Boeing, Газпрома, Аэрофлота? Я честно больше 15 минут потратил, пытаясь это сделать, но у меня ничего не вышло… Идея интересная, но реально пользоваться пока невозможно.
        +1
        Спасибо за отзыв. Скажем так, мы пока не делаем упор на главную страницу, все зависит от активности пользователей. Если 100 пользователей обсуждают сервис Аэрофлота на каком-то сайте, то эта информация будет важнее и выше 1 пользователя зашедшего на сайт Аэрофлота.
          +6
          Я понимаю принцип, и я даже понимаю, почему вы хотите именно так сделать. С другой стороны, это может привести к сильной… как это назвать-то, фрагментации что-ли… выдачи. Ну например, я голоден, и хочу узнать как варить сосиски. Соответственно, я пишу в строке поиска «как варить сосиски», в надежде найти рецепт.

          В это время, куча народу (например, на Хабре) обсуждает новую социальную сеть для любителей сосисок вСосисках, и я в выдаче получаю кучу ссылок на это обсуждение. И вроде бы с одной стороны это мне даже полезно, т.к. там я смогу выяснить все, что я давно хотел узнать о сосисках, но боялся спросить. Но с другой стороны, это мне сейчас совершенно не нужно, более того — тратит мое время и ставит меня под угрозу голодной смерти, т.к. все что мне нужно было узнать — это «киньте в воду, и варите пока не закипят».

          Может быть вам нужно побольше настроек добавить, или еще что-то, не знаю… Кстати, если бы было много ползунков с настройками выдачи — это было бы весьма круто.
            0
            Да кстати, основной индекс сейчас представляет информация на английском, поиск на русском пока утруднен и печален в силу отсутствия пользователей :) Чем больше информации от пользователей мы получим — тем лучше сможем настроить поиск. Насчет примера с сосисками, в планах у нас есть добавление системы по типу категорий, предпочтений и интересов, хотя тут скорее вопрос текста запроса, ведь даже вСосисках могут присутствовать обсуждения как лучше сварить сосиски чем на том же сайте производителя (ну там пожарить может лучше, горчицы добавить, черт, пора мне на обед). Насчет настроек — думаем и работаем над этим
            0
            А не будет ли принцип "Если 100 пользователей обсуждают..." золотой жилой для черного SEO, продвижение сайтов, раскрутка Вашего сайта, попасть на первую страницу выдачи blippex бесплатно без смс?
              0
              Пока говорить об этом еще рано, но мы уже думаем над этой проблемой
            0
            Я пользуюсь блиппексом так (поставил экстеншн):
            image
            Мне нравится. )
            0
            Что должен найти человек по запросу wikipedia? Вы предлагаете — murdos_bot? (musicbrainz.org/user/murdos_bot)
            Может есть смісл приложить усилия в другом направлении?
              +1
              К сожалению мы еще не идеальны, и наверное никогда ими не будем (как впрочем и любая система), но активно стремимся к этому, работа ведется
                +1
                «Не идеальны»? Вы стебетесь?

                Результаты офигенно не релевантны, безумно не релевантны. Если алгоритм работает неправильно при 1000 пользователей, то почему он заработает правильно на 10 миллиардах пользователей? Если же вы все таки уверены в этом, то стоит либо самостоятельно собрать базу данных, а потом запускать проект, либо читерствовать, и использовать свой супер алгоритм для улучшенной фильтрации традиционных выдач. В данный момент вашим сервисом пользоваться вообще невозможно
                  +1
                  Если алгоритм работает неправильно при 1000 пользователей, то почему он заработает правильно на 10 миллиардах пользователей?

                  В силу вот этого. Далее учите матчасть и соображайте, при чём здесь это.

                  (На самом деле величины могут быть распределены вообще как угодно, главное, чтобы они были независимы и их было много, чем больше, тем лучше.)
                    +1
                    Для этого еще желательно, чтобы алгоритм был правильный :)
              +2
              поисковую информацию должны предоставлять сами пользователи

              ru.wikipedia.org/wiki/Wikia_Search, прожил полтора года.

              отправлять информацию о посещённых страницах

              Тоже не новая история, habrahabr.ru/post/124538/
                +2
                Не сказал бы, что DuckDuckGo мимикрирует под Google Search. Да, общие черты те же, но результаты обычно другие (сказывается, в частности, отсутствие персонализации). Оригинальный и быстрый Zero-Click, открытый исходный код (самого движка) — всё меня привлекает. Перешёл с Google около полугода назад и очень доволен. Теперь только изредка завершаю поисковый запрос символами !g.

                И всё-таки желаю удачи. Здоровая конкуренция никогда не помешает.
                  0
                  Глупый вопрос сейчас задам, но любопытство перевешивает.
                  | "… открытый исходный код.."
                  Что мешает выставлять на публику «чистый» код, и параллельно использовать его имитацию с темными фичами в самом продукте? Чем выступает гарант, ограждающий от подобной махинации?
                    0
                    Последнее предложение вернее выстроить так: «Что выступает гарантом, ограждающим от подобной махинации?»
                      +1
                      Конечно же, гарантии не даст никто. С другой стороны, есть API для создания плагинов. Можно с их помощью попытаться исследовать внутренности системы. Хотя и здесь может быть западня в хитром построении API или перехвате «неудобных» вызовов. В остальном согласен — в web быть в чём-то уверенным сложно. Доверие возникает, потому что считаешь реализацию таких лазеек излишне сложной.

                      Интересно, возможно ли применить нечто вроде алгоритмов zero knowledge для доказательства того, что система соответствует исходному коду…
                      0
                      Возможность сборки приложения из «чистого» исходного кода.
                        +1
                        Мда. Где гарантия что ваш компилятор/линкер (который вы по-любому скачали из интернета в бинарном виде — вы не могли построить компилятор без компилятора) не добавит закладку при сборке?

                        Решение есть
                        Строим комплиятор двумя разными другими комплияторами и сравниваем.
                          0
                          который вы по-любому скачали из интернета в бинарном виде

                          Была статья по этому поводу. и там предложили собрать свой компилятор. Далее с помощью своего кривого компилятора компилируем из исходников тот же gcc. Чем не вариант?

                          баг решения
                          Строим комплиятор двумя разными другими комплияторами и сравниваем.

                          А где гарантия что и они без закладок(одинаковых)? Ах да и о закладках в процессоре не забудьте.
                            +1
                            Ну я собственно из этой статьи и взял собственно идею. Но как я вижу, вы её читали, так что ничего нового.

                            Если есть закладки в процессоре (ну или ещё где-то в аппаратуре), то какая нам разница, есть ли они в софте? ;)
                              0
                              На счет закладок в аппаратуре с вами полностью согласен.

                              Кстати, для «не параноиков» — годика два назад познакомился с интересным на вид вирусом: ничего предосудительного, программка как программка. Его даже антивирусы не ловили, определенное время, и эвристика не спасала. Работа его заключалась в модификации всего нескольких файликов — да же не бинарников, а *.pas. Что делало компилятор Delphi 7 просто таки фабрикой троянов.
                              Так что проблема доверенного компилятора — не так далека от реальности, как это может показаться на первый взгляд. Да и следить за его «чистотой» и «девственностью» его стандартных библиотек то же необходимо.
                                0
                                Я в детстве в школе писал похожую штуку для BP7. Модификация файлов заключалась в добавлении к Uses модуля PasVirus. Ещё копировался файл TPU и PAS. Если память не изменяет, TPU-файл при создании был объявлен с большим куском, заполненным нулями, а после компиляции TPU туда помещалась копия исходника pasvirus.pas (не помню, зачем pas был нужен). Всё интересное происходило в секции инициализации модуля (begin-end).

                                Конечно, всё это было примитивно, но работало :)
                    0
                    Когда открываешь окошко расширения, неплохо бы, чтоб курсор сразу в строку поиска прыгал.
                      0
                      Хм, у меня так и есть. Win7. Проверим, спасибо
                      0
                      Мы считаем, что количество времени, потраченного на просмотр определенной страницы или сайта является хорошим показателем важности и релевантности информации.


                      Не боитесь, что у вас в топе всегда будут ВКонтакте и Одноклассники?
                        0
                        Разве что индексная страница, ведь персональная информация не индексируется, ну а публичные посты не настолько популярны чтоб быть в топе. В любом случае это можна отфильтровать
                      • UFO just landed and posted this here
                          +2
                          Используем elasticsearch, mongodb, redis, nodejs, rabbitmq, php. Есть
                          0
                          TypeError: Property 'scrollTo' of object [object global] is not a function
                              at Object.$scope.changeit (https://www.blippex.org/js/script.js:257:24)
                              at https://www.blippex.org/js/angular.min.js:74:98
                              at Object.e.$eval (https://www.blippex.org/js/angular.min.js:92:272)
                              at Object.e.$apply (https://www.blippex.org/js/angular.min.js:92:379)
                              at HTMLFormElement.<anonymous> (https://www.blippex.org/js/angular.min.js:156:220)
                              at https://www.blippex.org/js/angular.min.js:24:49
                              at Array.forEach (native)
                              at n (https://www.blippex.org/js/angular.min.js:6:470)
                              at HTMLFormElement.c (https://www.blippex.org/js/angular.min.js:24:20) 
                          


                          Это я попытался поискать Amsterdam. Ничего не произошло, тогда полез в консоль.
                          OS X, Chrome 30.0.1599.101
                            0
                            И Яндекс и Гугл давно уже используют анализ поведения пользователей, в частности, заход на сайты и время, проведенное на отдельных страницах для ранжирования результатов. Инструменты для этого — браузеры Хром и Яндекс, Я.Элементы.
                            Чем Ваш подход лучше?

                            Only users with full accounts can post comments. Log in, please.