Общедоступный индекс веба (5 миллиардов веб-страниц)

    Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

    Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

    Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

    Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

    Добавим, что руководителем Common Crawl Foundation является широко известный в узких кругах Гилад Элбаз (Gilad Elbaz), главный разработчик системы Google AdSense и исполнительный директор стартапа Factual.
    Поддержать автора
    Поделиться публикацией

    Комментарии 39

      +3
      Просто подарок любителям сеток ГС и автоматической генерации контента. Контента… бери не хочу.
        +5
        И чего они будут делать с этим? Проще парсить RSS для этого. А вот создать сервис для SEO-шников, чтобы смотреть беки это можно. Вот только таких сервисов уже есть пара штук и как я знаю базу они собирают сами: индексируют web своим пауком.
          +1
          Можно и RSS парсить. Там, где он есть, конечно. А тут громадные объемы наверняка не просто сырой а как-то структурированной информации. Причем с графом ссылок! Для генерации контента, имхо, очень вкусная должна быть основа.

          И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.
        +7
        Ура, теперь интернет можно скачать на дискетку. На большую, правда, дискетку.
          +2
          Анатоле улыбается, когда кто-то заморачивается сохранением интернета на диск. Лишние телодвижения.
            –1
            Анатоле сохраняет в мозг, что бы лишний раз не шевелится? :-)
              +1
              Вообще то мозг Анатоле — это и есть интернет.
          +7
          Так и представляю картину, В метро В ларьке «Весь интернет на 1 dvd, без потерь качества»
            +1
            3 интернета в 1.
            • НЛО прилетело и опубликовало эту надпись здесь
                –1
                Gold Edition by Saduga!
            0
            > Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
            Интересно, каким образом? Не вижу закономерности.
              0
              Оффлайн-гугл. Качаешь себе 50 Тб данных и ищешь, что нужно, у себя на компьютере! %)
                +2
                только скорость поиска будет так себе)
                  0
                  И качать больше года, при канале в 10мбит)
                  0
                  гугла не выйдет. 50Тб весят урлы, а не контент
                    +2
                    Вы всегда такой зануда?:)
                      +1
                      Просто люблю обламывать мысли о халяве :)
                      –1
                      50 ТБ / 5 миллиардов страниц = 10 000 байт на урл. Не верю.
                        0
                        А как же связи?
                          –1
                          10000 байт записи / ~100 байт на связь ≅ 100 связей у страницы. Не верю.
                  +6
                  Когда на торрентах?
                    +6
                    Кстати отличнейший способ распространения такого объема информации.
                      +1
                      Если оно выложено на S3, то оно уже доступно в виде торрента.
                    0
                    пошел затариваться домашним поисковым кластером…
                      0
                      информация в сети генерируется очень быстрыми темпами, как их паук справляется с задачей получения актуальной информации?
                        +38
                        А что тут не понятно? Когда ему на пути встречается другой паук, он его пожирает, тем самым поглощая собранную информацию.
                          0
                          Главное, чтобы ему не встретился паук Гугла.
                          Хотя, автор сервиса — работник Гугла, наверное гугловский паук примет его за своего.
                            +1
                            В конце останется только Один!
                            Борн ту би кинг оф зе Юнивёрс! (и музыка Queen из Горца)
                          0
                          Интересно что там в этой базе с русским интернетом.
                            0
                            не хочу показаться капитаном, но выше я уже ответил на этот вопрос, если им на своем пути, встречался например паук Яндекса, то там с русским должно быть все в порядке
                            0
                            Хороший датасет для тестирования вских GraphDB
                              –1
                              Да кому нужна эта куча мусора?
                              Лучше бы хабр проиндексировали — этого достаточно =)
                                +3
                                Куча мусора? Как по мне так куча возможностей. К примеру можно выделить графы страниц, профильных для какой-то отрасли, затем сделать коллектор отраслевых новостей и скормить это биржевому боту. Сценарий кажется утопичным, но если посидеть с бумажкой, ручкой и применить мат. аппарат, то можно заработать кучу денег.
                                  0
                                  Как показывает история, такой объём данных лишним не бывает.
                                    +1
                                    Лет 10 назад Гугл (тогда еще мало кому известный… да, были времена) присылал по почте 5 cd с данными пауков для участия в конкурсе по программированию каких-то алгоритмов… похоже опять конкурс только рассылать cd теперь накладнее
                                      0
                                      теперь шкафчик с жёсткими дисками будет

                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                    Самое читаемое