company_banner

Caffeine – новая система индексирования веб-сайтов от Google

  • Из RSS
Кэрри Грим, разработчик Google

Сегодня мы рады сообщить вам о завершении работы над нашей новой системой индексирования веб-сайтов – Caffeine. Caffeine на 50% «свежее» предыдущего индекса и представляет собой самую большую коллекцию веб-страниц за нашу историю. Что бы вы ни искали — новости, сообщения в блогах или на форумах, — нужные вам страницы теперь еще быстрее попадут в наш индекс, а вы сможете их быстрее найти.

Несколько слов для тех, кто не так хорошо знаком с поисковыми технологиями. Когда вы ищете информацию в Google, вы не работаете с «живой» сетью. Поиск осуществляется по индексу сети, созданному Google. Этот индекс очень похож на предметный указатель в конце книги, помогающий вам найти нужную информацию.

Зачем нам понадобилось создавать новую систему индексации? По двум причинам. Во-первых, количество информации в сети растет, а форматы ее представления становятся все разнообразнее. На современном сайте вы найдете видеоролики, изображения, новости и обновления в реальном времени. Страницы стали насыщеннее и сложнее по структуре. Во-вторых, люди ждут намного большего от поиска. Пользователей интересует самая свежая информация по теме, а издатели хотят, чтобы их аудитория могла найти материал сразу же после публикации.

Чтобы не отставать от стремительного развития сети и удовлетворять растущим ожиданиям пользователей, мы и создали систему Caffeine. На картинке вы видите, как работала старая система индексации и как теперь работает новая.



В нашем старом индексе было несколько слоев, некоторые из которых обновлялись регулярнее, чем другие. Большая часть индекса обновлялась каждые две недели. Чтобы обновить слой индекса, нам нужно было проанализировать всю сеть, что создавало задержку между моментом нахождения страницы и тем, когда она становилась доступной пользователю.

Caffeine, в свою очередь, позволяет нам анализировать информацию в Интернете «по частям» и непрерывно обновлять наш поисковый индекс. Это означает, что результаты поиска будут отображать максимально свежую информацию, вне зависимости от времени и места публикации.

Каждую секунду система обрабатывает сотни тысяч страниц. Если мы представим себе, что эти страницы бумажные, стопка из них росла бы со скоростью около 5 км в секунду. В базе данных Caffeine содержится порядка 100 млн. гигабайт данных, а новая информация добавляется со скоростью нескольких сотен тысяч гигабайт в день. Вам бы понадобилось 625 тысяч iPod-ов с самым большим объемом памяти, чтобы сохранить такой массив информации.

При создании Caffeine мы ориентировались на будущее Интернета. Эта система является отличной основой для построения других, более быстрых и объемных индексов, так как она способна лучше адаптироваться к развитию сети. Этим летом появятся и другие улучшения. Следите за новостями!
Google
108,00
Филин Лаки
Поделиться публикацией

Комментарии 62

    +14
    Пост написан для школьников старших классов? Стиль очень похож.
      +23
      Не хватает только сравнения высоты стопки страниц с расстоянием до Луны.
        +11
        Если мы представим себе, что эти страницы бумажные, стопка из них росла бы со скоростью около 5 км в секунду и достигла бы луны за 2 с небольшим часа
        Извините, не удержался :)
          +9
          Это даже круче 160 метров кишечника кашалота.
            –1
            Кишечник Гугла.)))
        –6
        Вы то сами школьник=0 Че жалуетесь?
          –6
          ппц школота поддерживает школоту в школотне
        +11
        Да, с такой исчерпывающей графикой работы новой системы, оборотами вроде «свежее» и «по частям» и сравнением с Айподами (куда же без них?), все стало ясно.
          +13
          Да, предельно ясно. Caffeine работает на 625 тысячах iPod-ов, которые крутятся вокруг какого-то чувака (в невесомости?).
            +1
            А если ещё и учесть то, что продано уже порядка 260 миллионов Айподов, то становится ясно что и сотая доля всего потенциала пока не использована и есть куда стремиться. Вот они — секретные планы!
              +1
              Сферический Брин в вакууме!)))
            0
            Caffeine конечно это здорово, но 100к страниц в секунду, это для каких порталов то.
              +1
              100k страниц с разных сайтов бескрайних просторов этих Ваших интернетов =)
              +21
              Картинка очень наглдяная
                +1
                С одной стороны как бы статика, с другой — динамика, символизирубщая непрерывное обновление поискового индекса. Мастер-класс информационной графики =)
                  0
                  А у меня сложилось впечатление: в новой системе все мельтишит так, что закружится голова :)
                  0
                  Я так и не понял. Она уже запущена? Или надо куда-то идти, чтобы посмотреть? Или это только анонс на будущее?
                    0
                    На этот раз новость из блога Яндекса была персвой)
                      0
                      первой*
                      +7
                      не понятно, зачем в каждом посту вы вставляете картинку с ссылкой на счетчик такого вида?
                      http://https//blogger.googleusercontent.com/tracker/25185540-2675624057986598052?l=googlerussiablog.blogspot.com
                      • НЛО прилетело и опубликовало эту надпись здесь
                          +1
                          А ссылка вида «www.404.ru/?l=googlerussiablog.blogspot.com»? У меня она вообще не подгружается, опера пишет «запрос завершен», а страница до конца не грузится. Раздражет, если честно.
                            0
                            *Раздражает, разумеется.
                            0
                            так а разве автопост не подрузамевает клонирование контента на разных сайтах? разве это против правил хабры?
                          –1
                          А на оптимизацию этот алгоритм сильно повлияет?
                            +1
                            да, теперь только гугл сможет заниматься СЕО для сайтов…
                              0
                              Буржуи жалуются, что НЧ траф упал сильно.
                              +8
                              Картинка очень информативная!
                                +6
                                Да, я тоже сразу понял все отличия.
                                +8
                                Я один ничего не понял?
                                  +4
                                  а дискет понадобилось бы еще больше )
                                    +3
                                    А мне почему-то жалко человечка на картинке справа, ясно же видно, что ему там плохо.
                                      +1
                                      Ему там очень хорошо :) Он ведь попробовал новый индекс.
                                      –4
                                      Уже год пользуюсь прогой Caffeine для Mac OS lightheadsw.com/caffeine/
                                      Больше кафеинов — хороших и разных!
                                        0
                                        Логотип Caffeine мне что-то напомнил…
                                          +1
                                          Возможно это? :)
                                            +9

                                              +1
                                              Хаброин!
                                                0
                                                напомнило
                                            +1
                                            Я сразу о подумал.
                                            +1
                                            Сначала подумал про Kaffeine потом увидел слово google и озадачился =)
                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                +22
                                                  0
                                                  Это пять :)
                                                    0
                                                    Эта пять с плюсом. Причём жирным, и большим =]
                                                  +2
                                                  Рисунок как раз из оперы а-ля «Marty, you're not thinking four-dimensionally!»
                                                    –1
                                                    Недавно задал вопрос на stackoverflow.com/, через пять минут скопипастил его в гугл и получил ссылку на свой топик первым результатом. Было приятно.
                                                      +3
                                                      что ж приятного, это означает, что ответа на ваш вопрос нет :)
                                                        –1
                                                        приятно, что первый, остальное — пофиг
                                                          0
                                                          Приятно то, что информация настолько актуальна. Или у гугла есть список ресурсов, которые должны индексироваться очень часто, или это фантастика.
                                                        0
                                                        Название больно знакомое.
                                                        –1
                                                        Очень повеселил рисунок, говорящий нам, что раньше все было структурировано и разложено по полочкам, а сейчас беспорядочно со всех сторон-) по-моему надо поменять местами текст или рисунки-)
                                                          +1
                                                          Вольный перевод:
                                                          «Мы сделали новое что-то и теперь будет хорошо, ну… по меньшей мере лучше чем было.»
                                                            +13
                                                            ахриненное описание!
                                                              +1
                                                              Спасибо, теперь стало понятнее!
                                                                0
                                                                ааа, так вот оно что…
                                                                +2
                                                                ААА! Гугл хранит базу данных поиска на айподах!
                                                                  0
                                                                  И главное, чувак стоящий рядом с индексом, произвел все изменения «одной левой» :)
                                                                    +1
                                                                    Раньше парень на картинке был обычным администратором стоящим у серверных стоек. Теперь он опутан какой-то лапшой и пытается из неё вылезти. Это гугл как бы дополненную реальность в своих офисах внедряет?
                                                                      0
                                                                      Да это же наглядство какое-то!
                                                                        0
                                                                        Видимо, все-таки не все так радужно. Час назад выложил на сайт одной компании новую страницу, даже sitemap обновил для Google, но в индексе ее по-прежнему нет.
                                                                        Думаю, что troorl1985 прав: все-таки остался список ресурсов которые гугл индексирует чаще и для которых Caffeine моментально обновляет индекс. Для сайтов попроще все осталось как и было.

                                                                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                        Самое читаемое