Распределенный поиск Majestic-12 мечтает о лаврах Google

    О чем недвусмысленно намекает такой картинкой на своем сайте:
    Основная идея — вместо тысяч серверов переложить работу по индексации на локальные машины пользователей, которые бесплатно предоставляют свои ресурсы. Для этого нужно зарегистрироваться и скачать программу-клиент.
    На сайте есть статистика — кое кто сто гигабайт своего трафика в день на этот проект выделяет.

    Сам проект скорее требует хорошее подключение, чем мощный процессор, в отличие от того-же Seti@home, где трафика мало — но процессор загружен по максимому. Так что безлимитка только приветствуется.
    Пока проиндексированно 37,534,707,760 URL, учитывая распределенную структуру проекта объем и скорость индексирования может превысить возможности GOOGLE. Проект амбициозный — но потенциал у него есть. Я удивляюсь что сам Google не создал нечто подобное. Революция против монополии Google? Who knows…

    www.majestic12.co.uk
    Поделиться публикацией

    Похожие публикации

    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 81

      0
      Идея хорошая. Жаль, что не моя ;)

      В свое время к подобным seti проектам подключался, так сказать из человеколюбия и веры в светлое будущее. В отличие от них, Majestic-12 смахивает на коммерческий проект. Может пока он не такой, но когда вырастит точно станет. В этом и его слабость, как проект начнет зарабатывать люди осознавшие это начнут отключатся, жаба задавит.
      • НЛО прилетело и опубликовало эту надпись здесь
          0
          в Скайпе ты получаешь замену твоему трафику, оплату за него. А в этом проекте?
          • НЛО прилетело и опубликовало эту надпись здесь
              0
              А оплата разная бывает, в скайпе это voip :)
              • НЛО прилетело и опубликовало эту надпись здесь
                  0
                  ну ну)
                    0
                    какая красота )))) честные - сразу признались что типа дайте нам обследовать самим ваш комп, а то гугл все вокруг да около - то почтой заманивает, то ворд-ёкселем соблазняет что-б личные документы на гугле хранить, а эти крендели сразу прямо - скачайте нашего трояна и все тут)))
                  0
                  В скайпе есть voip ??
              0
              Биттирент тоже еще жив. Судя по всему и не собирается умирать.
                0
                *Битторент
                • НЛО прилетело и опубликовало эту надпись здесь
              • НЛО прилетело и опубликовало эту надпись здесь
                • НЛО прилетело и опубликовало эту надпись здесь
                  +1
                  О! Как шикарно можно скормить этому поисковику индексацию собственного сайта...
                    0
                    а еще сколько жульничеств можно придумать - то вообще ))) если не самому смахлевать то вирусы это сделают ))) их программа то под винду написана, а винда без вируса не бывает
                    +2
                    Что важнее - проиндексировать как можно больше страниц или находить то что надо. Я за второе. Если система в дальнейшем также распределенно позволит настраивать индекс, тогда другое дело. Ноя не представляю как это можно сделать "руками". Даже сравнивая с википедией - там ты написал материал, прицепил ссылки, а здесь надо много читать чтобы настроить ссылки. Может будет некая первоначальная система рейтингов, а финально будет подкручивать коммюнити?

                    В общем поиск хорошо, а чтение мыслей ищущего - лучше.
                      0
                      "То что надо" из количества наверное происходит ?
                      0
                      когда-то давно пришла такая же идея в голову

                      забил на нее, когда не смог ответить на вопрос со стороны юзера: зачем предоставлять свой канал, если тоже самое (по сути) можно найти в гугле?
                        +2
                        Думаю, что не ошибусь, если предположу что в дата-центрах Google индексацией занимается значительно больше отдельных компьютеров, чем участников в этом проекте. Google уже давным давно это придумал.
                          0
                          Ну это несколько другое.
                          0
                          А за такую картинку гугл по шапке не даст?
                            0
                            Как мне кажется, бульдозер, сносящий логотип, как-то не корректно, вот и все.
                            P.S. спасибо неадеквату за карму ;)
                              +1
                              Это будет такой подарок со стороны гугла...
                              0
                              Команда по индексированию с именем "Ukraine" на 9-м месте на сегодня. ;)
                              0
                              Если этот проект хотя бы в теории в далёком будущем сможет отнять небольшую долю рынка у гугла, то гугл его купит задолго до этого момента ;) пока же этого не видно...
                                +2
                                Создать распределённого паука, в общем-то, не так и сложно (хотя я уверен что там не всё так просто: как хорошо они убирают дупликаты, к примеру?). А вот создать распределённый поиск... Тут-то собака и порылась... В сети eDonkey при на порядок меньшем числе URL'ов поиск - отвратительный. В M12 - пока вообще не работающий. Что толку хвалиться числом проиндексированных страниц если поиска нет вообще ?
                                0
                                а в чем собственно польза чуловеку предоставившему часть своих ресурсов на благо компании у которая не хочет тратить деньги на покупку серверов.
                                • НЛО прилетело и опубликовало эту надпись здесь
                                    0
                                    угу. денег на сервера нету, а на крутых программеров найдут
                                      0
                                      Первая проблема, с которой сталкиваются крутые программеры при разработке ПО — денег нет ;)
                                      • НЛО прилетело и опубликовало эту надпись здесь
                                          –1
                                          1. Гугл никогда не пользовался альтавистой.
                                          2. Гугл начинал с решения задачи поиска.

                                          Эти же ребята пока над основной задачей (быстрая обрабатка больших массивов информации) даже не думали. Кому нафик нужен поисковик, который выдаёт восхитительные ответы через месяц после того, как ему задали вопрос ?

                                          Основная задача в поисковой системе - это как-то ограничить потоки информации (ведь речь идёт о многих терабайтах HTML-страниц и тысячах запросов в секунду!). Если вы вместо 10Gbit каналов используете 10-100Mbit (а мало у кого из добровольцев есть более скоростное подключение) и вместо задержек в миллисекунды имеете задержки в секунды - то вы усложняете себе задачу на четыре-пять порядков (десятичных). Ну может у MJ12 есть какие-то алгоритмы, которые в миллион раз эффективнее того, что использует Google, но что это за алгоритмы ?
                                            0
                                            Вы кажется не поняли суть проекта. Пользователи не выдают ответы на поисковые запросы. Их компьютеры лазают по сайтам, индексируют их и передают эту информацию серверам M12. Где все и хранится.
                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                0
                                                Вот-вот... Все громкие названия "распределенный поиск" и т.д. - это просто для красного словца.
                                                • НЛО прилетело и опубликовало эту надпись здесь
                                                    0
                                                    Угу. А попытки скачать всё через p2p - с самого начала бредовые. Если вы всё равно должны как-то передать данные "в центр", то что мешает этому "центру" скачать всё напрямую ? Экономия есть, да, но по сравнению с необходимостью всё это как-то обрабатывать и где-то хранить затраты на скачку меркнут...
                                    +4
                                    а где исходники?
                                      0
                                      меня этот вопрос тоже интересует.
                                      0
                                      Если у них еще есьтакие же бодрые идеи как обработать всё проиндексированное чтобы с 1 раза находилось именно то тчо ищется – то это здорово.
                                        +4
                                        вбил я поисковый запрос, дождался таймаута, и закрыл. может, индексируют они и много, но искать неудобно.
                                          0
                                          аналогично
                                          +1
                                          а меня посетила мысль, что эта концепция (наверняка не в первоначальной реализации) имеет потенциал прийти на смену централизованному поиску, как p2p в свое время сменило варезники.
                                          очень интересно.
                                            0
                                            Варезники кончились по одной банальной причине: их довольно просто "найти и обезвредить". С p2p сложнее.

                                            Но Google пока никто закрывать не собирается!
                                              0
                                              причина ясна, я имею в виду сам принцип: система устаревает, ей на смену приходит новая. варезники были уязвимыми - сделали децентрализацию. поиск выдает сео-помои - сделают что-то на смену, скорее всего с участием все того же принципа децентрализации. причем классические поисковики-то не умрут, разве варезники умерли? ) просто контент разный. а если еще точнее, не суть контента, а его мм подача.
                                            +1
                                            Вообще идея интересная, ведь с помощью такой системы можно проиндексировать и то чего нет о_О (на просторах интернета) :-).

                                            Ещё можно ботнеты для этого дела приспособить, чтоб не простаивали :).
                                              +4
                                              А кто-нибудь попробовал произвести поиск?
                                              Не работает! Да вобщем-то и неудивительно.

                                              Брать за основу парсер html'а реализованный на .NET ... - :)
                                              Хранение они реализовали видимо тоже на чем-то не из той оперы.

                                              Убийственный выбор инструмента разработки похоронил проект, не успел тот родиться.
                                              По моему мнению, волонтеры, участвующие в проекте, в данном случае в пустую тратят ресурсы своих машин.
                                                0
                                                Передать работу по загрузке/разбору страниц на сеть из хостов добровольцев с низкой доступностью вполне допустимо, и от этого качество не очень страдает, т.к. данные не задерживаются на хостах с низкой доступностью.

                                                Но переложить на них отработку поисковых запросов не получится, т.к. имеются очень жесткие требования к времени генерации ответа (
                                                  0
                                                  ...генерации ответа (менее 2сек). Я уже не говорю о доступности: чтобы обеспечить 99,9999% доступность единицы уникальных данных, в обычном датацентре требуется создавать 3-кратную избыточность серверов с доступностью 99%. А чтобы обеспечить 99,9999% доступность в сети серверов с доступностью 50%, эту единицу уникальной информации потребуется продублировать на 20 серверах.

                                                  Загрузка страничек и их разбор требует мало ресурсов относительно ресурсов, требуемых для хранения индексов/документов и исполнения запросов пользователей.
                                                  Судя по тому, что ребята "экономят на спичках", пытаясь переложить эту простейшую работу на пользователей, у них совсем туго с финансированием. И, вполне очевидно, с настолько ограниченным бюджетом потеснить гугл у них нет никаких шансов.
                                                    0
                                                    99,9999% доступность это <3 секунд офлайна в месяц. Такая доступность не требуется ни на одном из сетевых сервисов по практическим причинам.
                                                      0
                                                      Это доступность не сервиса в целом, а единицы информации (которая необходима при генерации ответа пользователю).
                                                      Если поисковый индекс разбит на 10000 кластеров, и каждый кластер имеет доступность 99.9999%, то доступность индекса в целом составит 99%.
                                                  0
                                                  У данного метода есть недостаток перед классическими при поиске.
                                                  В классическом случае идет ображение к центральному серверу который собирает информацию с большего количества серверов в датацентре по быстрым каналам, выбирает немного лучших и по медленному интернету отдает это пользователю.
                                                  Тут информацию при поиске придется собирать с большого количества хостов но по медленным каналам. Думаю так нельзя будет добиться быстрого ответа на запрос.
                                                    0
                                                    а исходники программы-клиента открыты? а протокол обмена с сервером?
                                                    а то кто знает, чего она там перекачивает..
                                                    • НЛО прилетело и опубликовало эту надпись здесь
                                                        0
                                                        А кто может гарантировать чистоту любой другой модели ? Кто знает что вам сервер отдал ? Тут же важно чтобы результаты, которые есть в базе совпали с тем, что пользователь увидит, когда зайдёт на сайт!

                                                        Я другого не понимаю: как они собираются в этом индексе искать ? P2P сети за всё время своего существования эту проблему так и не решили, а у них задача на порядок проще...
                                                          0
                                                          время покажет
                                                          • НЛО прилетело и опубликовало эту надпись здесь
                                                          0
                                                          Мне кажется, что если в ближайшее время и возникнет каккой-либо принципиально новый способ индексации, то реализован он будет именно Big G. А создание неработающей поисковой системы судя по всему не очень грамотной группой энтузиастов - это тупиковый путь.
                                                            +2
                                                            Медленно работает.

                                                            Кстати, вот еще пачка разных распределенных поисковиков:

                                                            http://www.oreillynet.com/pub/t/74

                                                            Есть даже с открытыми исходниками ;)
                                                              0
                                                              Идея интересная, вот только не работает.. Нет, возможно индексация и соревновательный дух, присущий многим распределенным вычислениям, присутствуют, но поиск не функционирует. Для меня. реакция на нажатие кнопки/ссылки не должна превышать 10 секунд, иначе я скорее всего уйду. Конечно можно ждать, если оно того стоит..
                                                              Но оно не стоит, результатов я не увидел.
                                                              Так что оставлю свою мощность работать на OGR :)
                                                                +1
                                                                Хахаха, название проекта говорящее. =) Потом они перенаправят весь трафик через ИИ Icarus в зоне-51.
                                                                  0
                                                                  Как уже было сказано, не важно кто собирает информацию, поисковый бот Гугла или группа энтузиастов. Важно как ее обработать и отсеять не нужное (выдать нужное)...
                                                                  И если в вопросе сбора информации (индексации сайтов) M12 радует, то что с обработкой совершенно не понятно. А ведь это намного важнее, чем колличество проиндексированных страниц.
                                                                    0
                                                                    Можно придумать какую-нибудь социально рейтингуемую систему. Это сложно, но, как мне кажется, возможно.
                                                                      0
                                                                      Вот это и интересно узнать, а не то, кто и как индексирует страницы.
                                                                        0
                                                                        ручками такие объемы лопатить - это то же самое как воевать с китайцами, они будут размножаться быстрее, чем ты их убиваешь
                                                                      0
                                                                      Вот же бот сеть будет!
                                                                        0
                                                                        А карму зачем придумали? :)
                                                                        0
                                                                        Кто-нибудь задумывался, а возможно ли вообще сделать адекватный распределенный поиск по вебу?

                                                                        Сама идея распределенного поиска мне нравиться, но не могу представить каким образом будут ранжироваться результаты, как обеспечить приемлемое время ответа клиенту, как избежать дублирования в распределенном индексе и выдаче, как быть с обновлением(удалением) контента?

                                                                        Хорошо - будет в индексе больше документов чем у Гугла, но я сильно сомневаюсь, что поиск по этому массиву будет реализован лучше, если это впринципе возможно. Может разработчики решили: "давайте соберем базу, а после решим как со всем этим хламом полететь"?
                                                                          +1
                                                                          Вам еще хочется пользоваться этой сетью после этого ? :)
                                                                          А еще я полчаса назад сбегал с их базы в Deus Ex :-P
                                                                            0
                                                                            Упс, не заметил, что вверху уже написали :(
                                                                            0
                                                                            У меня поиск ни в какую не работает(
                                                                            Подумает, подумает над запросом и выдает ошибку, что сервер не найден.
                                                                              +1
                                                                              Замечательная идея! И всего-то нужно: а) предоставить свои ресурсы и трафик б) установить себе какаю-то левую софтину в) дождаться когда тоже самое сделают миллионы других гиков. Гугл действительно закатали в асфальт!:)
                                                                                0
                                                                                А может речь идет не о распределенном поиске, а о респределенной индексации? Храниться индексы будут все равно в датацентре этой конторы, как там ее. Задача же программы, работающей на стороне клиента: скушать HTML страницу, убрать из нее теги и прочий неинформативный мусор и отослать в "улей" кусочек индекса. Таким образом конторе нужно меньше тратиться на траффик.
                                                                                Пропиарить свой сайт или внести изменения в индекс, думаю тоже не получится, потому что все грамотно написанные распределенные системы используют избыточность - дают один и тот же кусок работы нескольким машинам, и сравнивают результаты (так делают и Seti, и Boinc, и Folding@home). Если результаты обработки одного и того же куска работы оказываются разные - это настораживает их там в "центре".

                                                                                Кроме того, сделать людей "причастными к рождению" - это реклама.
                                                                                  0
                                                                                  есть подобный проэкт под нозванием del.icio.us только основная идея там в тегах, и осмысленном добавлении тега на статью самим пользователем.
                                                                                  Сейчас этот ресурс принадлежит Yahoo.
                                                                                    0
                                                                                    del.icio.us — это сервис хранения закладок (и поиска по ним)
                                                                                    в статье речь идет о поиске по сайтам
                                                                                    0
                                                                                    "Проект амбициозный - но потенциал у него есть"

                                                                                    не понял фразы из текста)
                                                                                      0
                                                                                      Амбиции - это понты разработчика, а потенциал - это возможности используемой технологии. Я хотел сказать что их понты "закатать Google" вроде не на пустом месте. Смогут или не смогут - другой вопрос...
                                                                                      +1
                                                                                      Хороший поисковик — это не только и не столько громадный индекс. Это нехилая работа математиков, работающих над алгоритмами подсчета релевантности результатов поиска. В Яндексе этим занимаются математики — доктора наук. Думаю, что у Гугля в этом плане похожий подход.
                                                                                      Потому-то я и считаю, что смысла в этом проекте как в поисковике нет. Скорее всего, они сами это осознают и в итоге продадут свой индекс какому-нибудь Яху за бесценок.
                                                                                        0
                                                                                        вбил "viagra" и всё понял.
                                                                                        вообще, идея висит в воздухе давно (YaCa вроде самый старый из подобных проектов), но никто никак не осилит совмещение соцсети (типа digg) с p2p поисковой машиной: репутации пользователей, оценки выдачам (лопата для спама), децентрализированное хранение данных, распределение трафикоёмких процессов и т.п.

                                                                                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                        Самое читаемое