Самая большая база данных в мире — в Yahoo! И работает она на PostgreSQL!

    Яху!Компания Yahoo утверждает, что ей удалось побить мировой рекорд, создав самую большую и нагруженную базу данных в мире!

    Объём запущенной год назад базы данных достиг 2 петабайт. Система создана для аналитических целей, в ней хранится история поведения веб-пользователей (утверждается, что в месяц сохраняются данные о полумиллиарде пользователей). Помимо прочего, интернет-гигант заявляет, что это не только самая большая БД в мире, но ещё и самая нагруженная — в сутки в ней регистрируются данные о 24 млрд событиях.
    Постгрес!
    А теперь самое интересное. Управляет этим монстром модифицированный PostgreSQL. Это — результат покупки компании-стартапа Mahat Technologies, изначально работающей с самой развитой СУБД с открытым кодом PostgreSQL. Код «Постгреса» был модифицирован для работы с такими огромными объёмами информации (одно из самых крупных изменений: ориентация на по-колоночное хранение вместо традиционного построчного, что замедляет запись на диск, но обеспечивает лучшую скорость доступа к данным для аналитических целей). Положительный результат налицо: некоторые таблицы в базе содержат триллионы строк, которые не просто лежат мёртвым грузом на дисках, но могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде.

    Инженеры Yahoo ожидают рост до 5 петабайт к следующему году. И они готовы к такому росту. Для сравнения: редко встречаются БД уровня предприятия объёмом более десятков терабайт. Например, одна из самых больших публично известных БД в мире — база данных налоговой службы США «весит» всего лишь 150 терабайт. Компания EBay заявляет, что работает с системами, обрабатывающими 10 млрд строк в сутки, при этом суммарный объём данных в этих системах составляет 6 петабайт, а объём данных у самой большой из систем — около 1.4 петабайт.

    Стоит понимать, что речь идёт именно о СУБД и БД построенных на них. Есть хранилища данных с ещё более впечатляющим объёмами, но при этом данные в них практически недоступны для анализа и обработки. К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 петабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF).

    «PostgreSQL продолжает активно развиваться, подтверждая звание самой развитой СУБД из открытых, — комментирует представитель компании «Постгресмен» Николай Самохвалов. — В прошлом году инженеры Sun показали всему миру, что PostgreSQL не уступает в производительности Oracle. На недавно прошедшей в Канаде международной конференции PGCon2008 представители NASA рассказали о своём опыте использования PostgreSQL для работы с большими базами данных из области наблюдения за климатом. Опыт Yahoo — очередное яркое подтверждение зрелости PostgreSQL. И это очень приятная новость для всех нас, жаль лишь, что, насколько я знаю, Yahoo пока не планирует делиться своими наработками с сообществом.»
    Поделиться публикацией

    Комментарии 53

      +3
      Круто! Парни, мы в вас верим!
        0
        Немножко не понял:
        "К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 терабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF)."

        это как? %)
          0
          спасибо, поправил еще до того, как вы об этом написали :)
          конечно, имелось в виду 6 петабайт
            0
            а сколько кассет у них магнитных?
            0
            И это очень приятная новость для всех нас, жаль лишь, что, насколько я знаю, Yahoo пока не планирует делиться своими наработками с сообществом.»
            из опыта, Yahoo делится своими наработками только тогда, когда в известной степени уверен в их готовности для открытого доступа. Недавний релиз Internet Locality Platform - яркий тому пример (система существовала уже несколько лет).
              0
              На http://postgresmen.ru/news/news/view/44 отвечают 404
                0
                спасибо, поправил
              • НЛО прилетело и опубликовало эту надпись здесь
                  +1
                  А что считается базой данных? Вот например индекс поисковой системы — чем не база данных?
                    +1
                    ...могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде...
                      0
                      То есть речь идёт о реляционной БД. Понятно.
                        0
                        исправьте на РБД
                        0
                        То есть в статье имеются в виду ACID-совместимые системы с SQL-интерфейсом.
                        +10
                        Что мне нравится в таких базах - так это то что их никакой Том Круз не упрет. Дискету не утащит)
                          +12
                          Да, я прямо представил как он спускается на тросе, записывает болванку, матерится, записывает еще. Лезет вверх за сумкой с болванками, курит, Лезит за внешним винчестером, курит. Ставит архивацию и решает зайти еще раз через пару недель.
                            +2
                            поздравляю)) вы засветились на башорге))
                            bash.org.ru/quote/397018 утверждена 2008-05-28 в 16:27
                              0
                              его подставили. Кто признавайтесь!!!!!
                                0
                                это был пеар;))
                        • НЛО прилетело и опубликовало эту надпись здесь
                            • НЛО прилетело и опубликовало эту надпись здесь
                                0
                                5000 винчестеров по 200 гб.
                                  +1
                                  Причем это только база данных. А кроме этого есть почта, хостинг, фликр.
                                  Суммарно сейчас у yahoo где-то 25 петабайт на дисковых хранилищах.
                                  Хранилища, кстати - NetApp, любопытные системы сами по себе.
                              0
                              Миллион «Гига».
                              –7
                              <irony>да вы что? для любого более-менее крупного проекта - только Oracle и Microsoft SQL, для маленьких - MySQL, а про PostgreSQL мы вообще ничего не слышали!</irony>
                                +4
                                Это вы зря. Если вы знаете Оракл, то вам должно было явно не хватать "чего-то" в MySQL.
                                Сам избалованный корпоративной базой Оракла с трудом могу смотреть на MySQL. Потому и изучаю потихоньку PostgreSQL. Чего и вам советую.
                                  –6
                                  не везет вам :) как-то слабо уже шутки на хабре понимают, даже если написать "лопата", наверное обилие юмора на заглавной сказывается
                                    0
                                    1. можно понятие маленький ? для вас канешно.
                                    2. вы поработайте на постгреме и на оракле и на мускуле и на ... ну кароче попробуйте, я вот поработал, могу сказать - оракл для данных более 20 мультов записей, мускл - это по сути только для управления таблицами, не более(процедуры только недавно появились ) ), MSSQL - ну это отдельный вопрос(кто с ней работал , причем иммено работал , а не презентации показывал, меня поймут) - интересная там тема с автоинкрементом катсти, через ф., хотя может на новых версия ихменили, и у нас было еще так, что при расчете баланса все клиенты ждали пока не расчитается все(хотя мождет клиента криво написали )
                                    +1
                                    "в ней хранится история поведения веб-пользователей"
                                    "в сутки в ней регистрируются данные о 24 млрд событиях."

                                    большой брат все таки существует...
                                      +2
                                      Несколько лет назад, когда я работал партнером компании MySQL AB, мы колупались с одной базейкой весом в 401тер - под управлением тогда еще MySQL 4.1 alpha :)
                                        +3
                                        Цену набивают.
                                          0
                                          Вот появится репликация "из коробки" и будет всем счастье.
                                            +2
                                            А бекапы они не забывают делать? :)
                                              0
                                              Бэкап скорее на уровне дисковой подсистемы. Иначе просто никак%)
                                              +1
                                              Отличная БД. Главное бесплатная и секурная.
                                                0
                                                В смысле, СУБД?
                                                  0
                                                  Ну да, СУБД. Писал как быстрей, а вы не скептик?
                                                    +20
                                                    Я боюсь вам отвечать с вашей аваторкой :)
                                                      +8
                                                      Ну где еще могут встретиться 2 столь разных аватарками человека =)
                                                        0
                                                        вы ещё подеритесь
                                                          +3
                                                          Меня забыли :)
                                                            0
                                                            Ну вот, когда всё утихло, скажу Вам по секрету, что мой аватар - это защита от злых детей. Сначала у меня был подобный Вашему, но т.к. карма опускалась до -15, то сменил на этот, как видите помогает :)
                                                      0
                                                      Прямо читаешь и дух захватывает. Сравнить можно только со статьями о нашей бесконечной вселенной.
                                                        0
                                                        *пошел изучать
                                                          0
                                                          Офигеть, зауважал постгрескуль)
                                                            +5
                                                            Как человек, который там (PGCon 2008) был и гулял на вечеринке, которую устроила Yahoo, могу сказать, что от постгреса там не очень много осталось :) Вот фотография с этой презентации, которую сделал Gavin, там и видно, что взято от постгреса
                                                            http://www.flickr.com/photos/gavinmroy/2…

                                                            Эта тема несколько раз обсуждалась в разных барах всеми девелоперами и пока особого оптимизма никто не высказал, особенно в плане получения исходников. Пока же мы получили довольно отстойные сумки от Yahoo :)

                                                            Что касается вертикально-ориентированных БД, то эта тема пока больше смахивает на коммерческий шум, который поднял Mike Stonebraker (вот его блог: http://www.dbms2.com/category/michael-st…). Для определенного типа задач ВО-БД вполне оправданы, но не для реляционных БД общего назначения. А вообще, ВО-БД начали обсуждаться еще в 1972 году.
                                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                                0
                                                                Интересно, что хранится все это (и остальные данные Yahoo тоже, а их сейчас более 25PB в сумме, может и больше уже, не знаю) на дисковых системах хранения Network Appliance (AKA NetApp). Они их крупнейшие и старейшие клиенты.
                                                                А сами хранилки, кстати, не менее интересны.
                                                                  +3
                                                                  PostgreSQL безусловно молодцы! Самая прогрессивная по архитектуре и продуманная реляционная СУБД с открытым кодом - что уж говорить.
                                                                  Но все-таки неправильно сравнивать базы данных разного рода чисто по объемам. К реальной производительности объем имеет косвенное отношение. Понятное дело, что на YouTube основные объемы данных - это видео-ролики. Плюс всякие логи доступа и т.п. Сама база данных как таковая сравнительно скромная по объемам - по сравнению с тем, сколько занимают видеоданные. Эти видеоданные или лежат в BLOB-ах или вообще в каком-нибудь отдельном хранилище и собственно реляционная СУБД при доступе к ним играет очень вторичную роль (лучше бы ее вообще не было, с точки зрения производительности).
                                                                  У системы VISA, крупнейших банков, почтовых служб, самых больших операторов связи и т.п. объемы содержательных данных и количество транзакций наверное намного больше, чем у YouTube, особенно учитывая то, что на YouTube активно используется кэш, а кэшировать состояние счета в банке (например) невозможно по понятным причинам. :)
                                                                  Но все равно информация, безусловно, интересная - спасибо за сообщение.
                                                                    0
                                                                    офигеть... вот бы к такой базе запросики пописать) хе-хе))
                                                                      0
                                                                      не дай бог к такой базе запросики писать... /me крестится
                                                                      0
                                                                      Пришёл с баша :-) хороший пиар
                                                                      Сам уже перешёл с MySQL на PostgreSQL
                                                                      Переходить несложно, синтаксис почти одинаковый...
                                                                      Эту БД, в общем, всем рекомендую
                                                                        0
                                                                        Почему-то мне кажется, что от кода обычного PostgreSQL там остался только парсер sql-запросов :)

                                                                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                        Самое читаемое