Распределённый поисковик YaCy версия 1.0



    Активисты движения за свободное ПО запустили новый проект: поисковую систему YaCy, которая в перспективе может составить конкуренцию Google, Yahoo/Bing, «Яндекс» и прочим закрытым коммерческим поисковикам. Версия YaCy 1.0 вышла после пяти лет разработки, и теперь присоединиться к сети наконец-то может любой желающий.

    Поисковик YaCy работает по принципу P2P, то есть хранение поискового индекса и обработка поисковых запросов осуществляются не на центральном сервере, а в распределённой сети пиров Freeworld. В сеть может войти каждый пользователь, установивший программное обеспечение под GNU/Linux, Windows или MacOS, сейчас в сети около тысячи узлов.

    Диаграмма сети пиров Freeworld в реальном времени


    Если у вас свой сайт, то проиндексирйте хотя бы его — и разместите индекс в собственном узле Freeworld. Для этого нужно после индексации отключить в программе функции DHT Distribution и DHT Receive. При желании можете проиндексировать все интересные сайты и пользоваться своим локальным поисковиком (скриншот)

    Распредёлённая сеть пиров и открытый код гарантируют устойчивость поисковика, защищают его от попыток цензуры (см. SOPA, PROTECT IP и т.д.) или обвинений в субъективности, а также надёжно защищают приватную информацию пользователей. Никакого хранения истории запросов, никаких следящих кукисов.

    Демо-версия поисковика сейчас испытывает большую нагрузку в связи с выходом пресс-релиза. Чтобы помочь порталу выдержать пару дней, после установки программы сообщите на форуме свой статический IP, на него будут перенаправлять поисковые запросы с портала.

    По мнению авторов проекта, поисковые системы являются ключевым элементом в инфраструктуре веба, важным связующим звеном между миллиардами пользователей и информацией, которую они ищут.



    «Для такой важной функции мы не может полагаться на несколько крупных компаний и жертвовать собственной приватностью», — говорит Майкл Кристен (Michael Christen), лидер проекта YaCy.



    В каком-то роде YaCy — это аналог свободной социальной сети Diaspora, которая позиционируется как альтернатива закрытым централизованным Facebook/Google+/etc. Поддержку YaCy оказывает организация Free Software Foundation Europe (FSFE).

    FAQ по проекту
    API для внешнего доступа к поисковому серверу YaCy



    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 31

      –5
      Кстати вчера хотел его поставить, но потом передумал когда он сказал что требуется 30гб для кеша, а у мени они отсутствуют.
        +2
        В FAQ написано:

        You don't need a fast machine to run YaCy. You also don't need a lot of space. You can configure the amount of Megabytes that you want to spend for the cache and the index. Any time-critical task is delayed automatically and takes place when you are idle surfing (this works only if you use YaCy as http proxy).

        –7
        Прочел как «ЯйЦа»
          +1
          Поставил ноду в виртуалку.
            0
            Вроде работает. Памяти только до жути хочет =(
            +3
            Кириллица в поиске не работает.
            Релевантность на 0 (по запросу «windows 7» предложил скачать Putty и сходить на lenta.ru)

            Кстати, интересно, что будет если нода отключится? В торрентах все раздают одно и то же и отключение пира лишь уменьшает число сидеров на 1. А тут получается, что может выпадать часть поискового индекса.
              0
              Уверен, что разработчики позаботились о репликации.
                +1
                Примечательно, что кириллица не работает только в демке.

                По релевантности — интереснее. Похоже, нода выдаёт то, что именно ей кажется более близким. Демка правда даёт что-то, не имеющее отношения к windows 7, у меня выдаются новости overclockers.ru (сильно подозреваю, что потому, что указал проиндексировать этот сайт)
                  0
                  Пишу Вам из 2014 г, т.е. три года спустя… лучше не стало. Кириллица и юникод вообще теперь работают отлично, это несомненный плюс! Но, к сожалению, поисковик до сих пор годится только для локального поиска по сайтам, но никак не для глобального поиска :)
                0
                Ну индексация-то ок, это малая часть дела. Попробовал с десяток запросов, с ранжировкой и вообще поиском у них совсем печально.
                  0
                  Конечно, странно, что за 5 лет всё так грустно, но, с другой стороны, это же открытая разработка — сделали ядрышко в свободное время, теперь ждут помощи сообщества.
                  +2
                  Кстати, название (YaCy) из-за первых двух букв наталкивает на мысль о Яндексе.
                    +1
                    Yahoo же
                    0
                    > Никакого хранения истории запросов, никаких следящих кукисов.
                    Ну то есть они никогда, увы, не смогут догнать коммерческие поисковики. Сильно сомневаюсь, чтобы это было возможно без анализа поведения пользователей и без поведенческого таргетинга.
                      0
                      А зачем их собственно «догонять» в количестве рекламного мусора и нарушении конфиденциальности?
                        +1
                        в этой области не обязательно. но анализ поведения используется для улучшения качества поиска.
                          0
                          Что-то сомневаюсь я, что пользователю всегда требуется именно такое «качество», в котором первые позиции занимают проSEOшенные локальные коммерческие ресурсы.
                            0
                            1. коммерческим поисковикам не выгодно, чтобы в первых рядах были «просеошенные ресурсы», им выгодно, чтобы деньги носили не к оптимизаторам, а за контекстную рекламу
                            2. борются с накрутками они, в частности, с помощью анализа поведения живых пользователей; получается у них с переменным успехом, а без этого инструмента, вероятно, еще труднее.
                              0
                              А будет ли столько накруток в некоммерческом децентрализированном поисковике, сколько вирусов под Linux, например?
                                0
                                разумеется, если им никто не будет пользоваться, под него не будут накручивать. правда, вот беда, он будет подвержен значительной части накруток для «больших» поисковиков, но не будет обладать частью их механизмов для борьбы.
                      +2
                      В ответ на запрос «WIkipedia» почему-то выдало первой строкой страницу из википедии об индийском кастовом ёге Шри Ауробиндо:). Что символизирует.
                        +3
                        Однако подозреваю, что самой вкусной опцией использование клиента сабжа является «Search portal for your own web pages», что позволяет формировать поисковые сообщества, по сути независимые от большого гугла, а заодно и от ручонок всяческих копирастов и цензоров.
                          0
                          а у гугла вроде тоже есть собственный custom search, чтобы делать, скажем, «поисковик по серверам хеви-метал направленности» (и туда не попадут сайты по сталепрокату или оперные арии, а только нужные арии будут). Или я ошибаюсь с этой фичей?
                          0
                          У меня вылетела на последнем секундах установки… Win7 x64
                            +3
                            К сожалению на P2P хорошо ложится только обход и индексирование сайтов,
                            а для собственно поиска и ранжирования надо уметь отработать запрос на всех машинах где хранятся кусочки индекса. Либо у них будут потери в скорости ответа, либо будет поиск по ущербно малой части интернета.
                              0
                              Кэширование может спасти.
                              0
                              ради релевантного ответа можно и подождать несколько секунд.
                                0
                                Если релевантность страдает сейчас, что будет, если там вдруг появится трафик и на поисковик обратят взор до сих пор невымершие спаммеры и дорвейщики?
                                  0
                                  активнее использовать поведенческие факторы
                                  +4
                                  >On linux you need OpenJDK6.
                                  Г-р-ррр… Переписать им код на нормальном языке что ли?
                                    0
                                    А воз и ныне там…
                                    Вот интересно, почему никто и нигде не описывает и не обсуждает трафик, который эта штука пожрёт у того, кто его себе поставит? Нигде никаких хоть примерных цифр!

                                    А ведь неплохо б такие штуки ставить на автономные, маленькие, и постоянно подключенные к интернету компы, такие как в роутерах нынче.

                                    Only users with full accounts can post comments. Log in, please.