Компания IBM разрабатывает самое большое хранилище данных в мире



    Каждый год мы слышим о том, что какая-то из корпораций строит очередной суперкомпьютер по заказу то Пентагона, то какой-то научно-исследовательской компании. На днях появилась новость подобного типа, только на сейчас речь идет не о создании суперкомпьютера, а о создании крупнейшей в мире системы хранения данных. Разработкой этой системы, состоящей из примерно 200 тысяч жестких дисков, занимается корпорация IBM. Объем данных, который сможет храниться в такой системе, составляет 120 петабайт.

    Эта система хранения данных создается не просто так, а по заказу. К сожалению, пока что заказчик неизвестен, а ведь было бы интересно узнать, кому и для чего понадобилась хранилище данных такого объема, правда? Сейчас известно только, что хранилище, скорее всего, будет использоваться для хранения данных, касающихся климатических моделей, а также данных по различным медицинским и биологическим исследованиям. Возможно, система создается по заказу сразу нескольких компаний, имеющих общие интересы.

    Утверждается также, что для этого хранилища данных специалисты разработали собственную файловую систему на основе GPFS, которая позволяет хранить части одного и того же файла на нескольких носителях. GPFS позволяет достичь скорости чтения/записи в несколько терабайт в секунду. Более подробной информации об этой системе пока нет.

    Еще известно, что охлаждение в этой системе — жидкостное, причем каждый жесткий диск будет охлаждаться отдельно. Пока что есть несколько сложностей, которые разработчикам еще придется преодолеть. Одна из таких проблем — создание надежной технологии, позволяющей всей системе работать безотказно, даже когда несколько жестких дисков вышли из строя.

    Via Engadget
    Поддержать автора
    Поделиться публикацией

    Комментарии 94

      +76
      бэкап порнолаба, очевидно же!
        –4
        Может быть dropbox расширяется (:
          +6
          Можете объяснить, как два комментария с идентичными шутками могут иметь такие разнящиеся оценки? Как всегда, думал, что просек психологию хабра, и вдруг такой жесткий облом))
            +6
            Ой, да забейте вы.
              +3
              Намекаете на то, что понять бессознательное хабра бесполезно? Как и женщин?)
                0
                Вроде того, прямолинейности и однозначности тут нет.
                  +1
                  Кто раньше встал того и тапки.

                  Если два коммента по сути идентичны — то первый: суперюмор-мысль-идея, а второй: примазывающийся плагиатчик, хотя это может быть и не так на самом деле.

                  Распределение же «прочитанности» комментариев возможно совпадает с кликами в топе искалок (т.е. экспоненциально падает).

                  Итого, алгоритм:
                  0) юмор должен быть, иначе die();
                  1) бдим над RSS;
                  2) пишем шутку первым, иначе goto 1;
                  3) тащимся от кармы;
                  4) goto 1;

                  Компилируем, запускаем, зацикливание…
              +2
              Мне безразлично что там + или —
                +2
                Я думаю, нельзя дошучивать аналогичной шуткой другими словами, ибо повтор.
                  +7
                  Все просто. Хабрачеловек, в массе своей, любит порно, и не любит дропбокс. О причинах помолчим.
                    +1
                    Я думаю слово «бэкап» привлекло столько внимания и одобрения.
                  +29
                  «Наконец-то появится нормальный сидер» (с рутрекера)
                    +13
                    Я думаю заказчик — почта россии. Будут свой документооборот автоматизировать. 120 петабайт tiff сканов.
                  +4
                  вообще-то, GPFS разработан ооооочень давно. Лет 10 назад я ее использовал, ЕМНИП.
                    +1
                    Никто и не говорит, что она новая
                    Утверждается также, что для этого хранилища данных специалисты разработали собственную файловую
                    систему на основе GPFS, которая позволяет хранить части одного и того же файла на нескольких носителях.
                      +13
                      Фразу «на основе» я добавил после того, как Hemul оставил свой комментарий. Действительно было моим упущением, спасибо за замечания =)
                        +4
                        Тогда приношу свои извинения)
                      +3
                      Вообще если смотреть в первоисточник, там говорится, что используется именно GPFS, которую IBM и разработали для таких систем. А разработали новый механизм избыточности, который позволяет переживать отказы дисков без снижения производительности. Но сначала творческая переработка энгаджета, а потом вольный пересказ на русский превращают пресс-релиз в охотничью байку.
                      –10
                      У кого-то фильмы для взрослых видимо не вмещаются :)
                      А про охлаждение оч интересно. Глянуть бы на реализацию. И эффективность.
                        +6
                        120Пб это где то 122880Тб и если 200к HDD то диси, с учетом погрешности, по 650Гб на диск.
                        Если брать по 24 диска на корзину то это примерно 8333 корзин и если они 2U, а шкаф скажет реально вмещает 35U то это 120 шкафов. Наверняка там будет что то особенное и будет более плотное размещение, но даже 100 шкафов для файлового архива это впечатляет.
                          0
                          Там наверняка будет, как минимум, двукратная избыточность. Вероятнее всего, будут стоять диски по 2 ТБ — они сейчас наиболее эффективны по цене за гигабайт.
                            +4
                            Я уверен, что цена там — совсем не главный вопрос, а на первом месте будет надежность и безотказность, и если IBMовцы решат что использовать 650-гиговые диски надежней чем 2-Тб — то так оно и будет…
                              0
                              Я разумеется не знаю но предполагаю что там будут SAS с шпинделем на 15к.
                              Надо уточнить у знатоков, но у меня в голове отложилось то что они пока есть до 600Гб и стоят очень прилично.
                              То что цена там не главное это уж точно не вызывает сомнения.
                                +2
                                Скорее всего будет комплексное решение с первоначальной записью на быстрые диски и последующим перекидыванием на медленные, но емкие.
                                  0
                                  Для этого нонешние SAN имеют кеши десятками-сотнями гигабайт.
                                  0
                                  Почему? Последние версии GPFS нормально работают с гетерогенными средами и позволяют мигрировать горячие данные.
                                  Впрочем, это тоже на важно, всё равно самое горячее будет в pagepool'е
                                  0
                                  по поводу отказоустойчивости важное место — софт. Чтобы обеспечивать резервируемость не на уровне диска или массива, а на уровне сервера.
                                    0
                                    Надёжность обеспечивает GPFS с (судя по всему) 3х-кратным резервированием.
                                    Диски летят все одинаково*
                                • НЛО прилетело и опубликовало эту надпись здесь
                                  +15
                                  Таааак, ребята! Походу инопланетяне в курсе 2012 года — и срочно делают бэкап всей инфы Земли. А сами свалят с ней домой.
                                    +2
                                    Отличная работа, заказчик раскрыт.
                                    +10
                                    Кадр из фильма «Космическая одиссея 2001 года», эпизод «выноса мозга» у компьютера HAL 9000? :)
                                      +1
                                      Он самый :)
                                      0
                                      а ведь было бы интересно узнать, кому и для чего понадобилась хранилище данных такого объема

                                      Сейчас известно только, что хранилище будет использоваться для хранения данных, касающихся климатических моделей, а также данных по различным медицинским и биологическим исследованиям
                                        +1
                                        статью не читай
                                        @
                                        сразу публикуй
                                        0
                                        Вспомнилися пост Backblaze, которые для хранилища бекапов разработали свой корпус, и собрали 16 петабайтное хранилище из 9к винтов.
                                        blog.backblaze.com/2011/07/20/petabytes-on-a-budget-v2-0revealing-more-secrets/
                                          +1
                                          Боже упаси сравнивать это поделие и то, что получится у IBM.
                                          +3
                                          А вот мне интересно, 120 петабайт — это с применением двоичных или десятичных приставок? При таких объемах разница между разными способами подсчета зашкаливает.
                                          • НЛО прилетело и опубликовало эту надпись здесь
                                              +10
                                              Неправильно. Разница растёт экспоненциально.
                                              0
                                              Разница даже между эксбибайтом и эксабайтом в ту или другую сторону составляет не больше 15%. На мой взгляд, тут идет речь о порядках, и ошибка в десятки процентов по сути ничего не меняет.
                                              –11
                                              Я один про Скайнет подумал? О_0
                                                +15
                                                Видимо да.
                                                0
                                                Ну так ведь когда разработают, это станет относительно доступно (я не про цену, а в принципе) и кому угодно? Не может же IBM разово подрядиться, выполнить, а потом заб(ы|и)ть? Не тот уровень же?
                                                  0
                                                  Ошибаетесь, обычный подряд.
                                                    0
                                                    Конечно станет, заказчики реально нуждающиеся в таком количестве хранимых данных в системе от IBM, вполне способны оплатить десяток другой миллионов за подобную систему.
                                                    +3
                                                    Блин, я уже было обрадовался (судя по скрину), что этот ДЦ будет на орбите
                                                      0
                                                      А что за фото в топике?
                                                        0
                                                          –4
                                                            +2
                                                            Название бортового компьютера в фильме «Космическая одиссея 2001»: HAL 9000, HAL — это IBM, сдвинутое на одну букву. Хотя Артур Кларк (автор романа) и уверяет, что это абсолютно случайное совпадение.
                                                              +1
                                                              Забыл написать: на фото в некотором смысле внутренности HAL 9000.
                                                            0
                                                            Количество серверов у гугл — больше впечатлило :)
                                                              0
                                                              И это год назад, страшно представить сколько сейчас…
                                                              +2
                                                              Блин, 120 петабайт! Только меня одного такой объем так сильно впечатляет?!

                                                              Это же 120 тысяч терабайт!
                                                              Это же 120 тысяч тысяч гигабайт!!!
                                                              Это же 120 тысяч тысяч тысяч мегабайт!!!

                                                              А я ещё помню, как маленький на машине с винтом в 40Мб играл! В удивительное время живем!
                                                                +5
                                                                Интересно хабрапарсер восклицательные знаки обрабатывает:

                                                                Следующая кострукция
                                                                ! (один воскл знак)
                                                                !! (два воскл знака)
                                                                !!! (три воскл знака)

                                                                парсится как
                                                                ! (один воскл знак)
                                                                !!! (три воскл знака)
                                                                !!! (три воскл знака)

                                                                Только меня он так поправляет? :)
                                                                  +2
                                                                  Кажется все воскл знаки в количестве >1 отображаются как 3
                                                                    +3
                                                                    Habrahabr использует допиленный Jevix.
                                                                    +2
                                                                    Самое удивительное, что не за горами время, когда все 120 петабайт смогут уместиться у Вас в кармане.
                                                                      0
                                                                      Представляю, какой тма будет бардак на этой флэшке — я сейчас на 6 гигах дома ничего найти старше года не могу — а там то…
                                                                        0
                                                                        Будьте оптимистом. Не бардак, а огромный перспективный рынок персональных микро-поисковиков. :)
                                                                          0
                                                                          Ничего себе _микро_ — да чтобы перелопатить 120 петабайт на своей «мега флэшке» понадобиться такой же карманный гугл (со всеми его серваками)…
                                                                            0
                                                                            Это ж будущее, там петабайты это микро. А Гугл к тому времени научится заглядывать в каждый карман. :)
                                                                    0
                                                                    1 петабайт = 1000 терабайт = 1000000 гигабайт. Т.е. они строят дата-центр на 120000000 гигабайт! Туда же поместится весь Интернет, и даже больше! Кстати, они будут использовать диски по 600 гигабайт. Не представляю, зачем им столько места! Ведь в их датацентре на каждого жителя России приходится 1,5 жестких диска! Это определенно заговор.
                                                                      0
                                                                      Для статистических данных мало места не бывает + учтите накладные данные в виде индексов, мета-данных, файловой системы и пр.
                                                                        +1
                                                                        А в километре 1024 метра
                                                                          0
                                                                          по 666
                                                                            0
                                                                            > на каждого жителя России приходится 1,5 жестких диска! Это определенно заговор.

                                                                            Для это им придется сократить население России до 130 тыс. жителей. Меньше, чем в Одинцово живет.

                                                                            Определенно заговор.
                                                                              0
                                                                              Кажется, skitalets чтото знает.
                                                                            +1
                                                                            какой «весь интернет»? Размерами в Тб уже давно оперируют в казуальном мире. 1Пб = 300 дисков по 3Тб. Я думаю, средней руки магазин, столько дисков в неделю продаёт, если не быстрее.
                                                                              0
                                                                              К сожалению, пока что заказчик неизвестен, а ведь было бы интересно узнать, кому и для чего понадобилась хранилище данных такого объема, правда?

                                                                              Крепкий орешек 4.0
                                                                                +1
                                                                                Интересно, сколько кВт энергии будет потреблять хранилище?!
                                                                                  0
                                                                                  Ну, у веб-архива уходит 6 кВ на хранение петабайта. У ай-би-эм вряд ли потребление будет больше, скорее даже меньше, технологии уже поновее чуточку.

                                                                                  Получается, до мегаватта на всё про всё. Немного.

                                                                                  А если они, как тот же веб-архив, будут отводимое тепло направлять на отопление офиса, так вообще недорого получится %)
                                                                                    +1
                                                                                    «кВ» — это, конечно, «кВт». Пардон.
                                                                                    0
                                                                                    Примерно 10 Вт × 200000 = не менее 2 мегаватт. Не меньше 1000 долларов в минуту только на электричество.
                                                                                      +2
                                                                                      Два мегаватта, то есть 2000 кВт, да по 15 центов за киловатт-час (а для крупных потребителей цена может быть в три раза меньше), да 24 часа в сутки = 7200 долларов в сутки. Максимум. Реально будет тыщи три.

                                                                                      Как у вас по тысяче в минуту получилось, я стесняюсь спросить.
                                                                                        0
                                                                                        Ошибся в тысячу раз, спутал кВт и Вт.
                                                                                          0
                                                                                          Да двже еще меньше будет. Вот оптовая цена на энергию в Европе: 54.80 €/MWh. Если ориентироваться по цифрам веб-архива (я чуть выше написал), то потребление будет не 2000 кВт, а около 700 кВт.

                                                                                          В сутки 920 евро.
                                                                                    0
                                                                                    Интересно — как они будут обслуживать все это дело?
                                                                                    А, я понял — там будет дополнительный робот, который будет сам менять сбойные диски!

                                                                                    Мне такой робот нужен тоже будет — это интереснее =)
                                                                                      –17
                                                                                      А мы тоже делаем ёмкие плотные и очень недорогие хранилища. Вопрос ещё и в цене. А у IBM они недешевые. Например bitblaze.ru
                                                                                        0
                                                                                        Извините спиздить решение, и говорить мы делаем, неправильно как-то…
                                                                                          0
                                                                                          Мы не скрываем этого а пишем честно, что вдохновились идеей backblaze (они сами заявляют: берите!)
                                                                                        –1
                                                                                        120 петабайт?! Тю… ;)
                                                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                                                            –1
                                                                                            Хотят походу разработать интерсект (кто смотрел сериал Чак знает о чём я )
                                                                                              0
                                                                                              Возможно, американское правительство хочет поставить камеры в общественных местах для борьбы с терроризмом. Их записи способны занять очень много места.

                                                                                              P.S. Сколько бы не было у человека пространства, он всё равно его загадит!
                                                                                                0
                                                                                                Давайте пофантазируем ;)
                                                                                                Вам нужно в вашей компании развернуть подобный массивчик на 200 000 HDD 3,5”. Из предложенных на рынке устройств попавших в круг моего зрения требуется:
                                                                                                2858 дисковых полки: HP 600 Modular Disk System и 14290 Unit / 1790 стоек
                                                                                                4445 дисковых полки: Supermicro 8476 и 17 780Unit /1778 стоек
                                                                                                4445 серверов хранения данных Bitblaze 45 и 17 780 Unit / 1778 стоек, бонусом 26670 HDD 2,5”
                                                                                                4117 серверов хранения данных Sun Fire 4540 и 16468 Unit /1647 стоек
                                                                                                Опять же опять же для всех серверов хранения данных требуется выделение HDD под систему, а для дисковых полок, серверов к которым они будут подключаться … При этом все это будет потреблять около 4 Мегаватт электроэнергии, не слабо ….
                                                                                                  0
                                                                                                  И опять я буду править Вас.
                                                                                                  не BitBlaze, а BlackBlaze blog.backblaze.com/2009/09/01/petabytes-on-a-budget-how-to-build-cheap-cloud-storage/

                                                                                                    0
                                                                                                    BitBlaze то название нашего сервера, и мы честно говорим, что вдохновились идеей, и пишем на сайте у кого вдохновились. (http://bitblaze.ru/o_kompanii.html… В основу проекта легла разработка американского хостинг-провайдера backblaze, на базе которой нашими инженерами была создана собственная линейка серверов хранения...) Кстати BackBlaze в блоге пишут что вдохновились Sun Fire 4540
                                                                                                      0
                                                                                                      Ну они то создали :) А вы просто лейбл поменяли и продаёте, с тем, что можно купить в России
                                                                                                  0
                                                                                                  Мы модифицировали, добавили опций, и продаем по самой низкой ценой в России. Например самая ходовая конфигурация Bitblaze45 на 45 3.5' дисков hot swap (+6 под систему) плотностью 4U стоит 80 000 руб. со всей начинкой «только добавь винты». Где можно найти дешевле? И прошу не сливать карму и не обвинять в плагиате.
                                                                                                    0
                                                                                                    Интересно сколько там будет хостов и какой interconnect (и его топология)
                                                                                                      0
                                                                                                      На тему, кому может пригодиться. Например, 1 час оцифрованного фильма (пленка 35мм, качество 4К) весит 4 терабайта. Видеархив какого нить фильмофонда, какого нить государства составляет десятки, а то сотни кинолент. Если средний фильм — 2 часа. Один фильм — 8 Тб. 10 000 фильмов — 80 000 Тб = 80 Пб. Т.е. не так много.

                                                                                                      Другое дело, что такие системы стоят фантастических денег и используются, скорее, для исследовательских целей (о чем у вас упомянуто). Это либо космос, авиация или фармацевтика. Возможно — системы принятия решения, экспертные системы.

                                                                                                      Скорость передачи данных в несколько тер в секунду — жестокое преувеличение. Таких интерфейсов, даже агрегированных нет. Полная пропускная способность сан-свичей (уровня директора) 4-5 терабит/с = 0.5Гбайт/с Учитывая, что максимум половина может использована (если в свич, что то входит, то и выходить должно столько же), 0,25 Гига в секунду — текущий технологический потолок.
                                                                                                        0
                                                                                                        0,5Гбайт/с — это потолок одного свича. А речь идет об агрегированной пропускной способности комплекса. С распределенными файловыми системами общается множество клиентов, часто эти клиенты являются узлами распределенной вычислительной системы. Вычислительная система в сумме, через множество клиентов (по множеству свичей), может получать намного больше 0,5Гбайт/с. Озвученные терабайты это конечно крутовато, но я лично наблюдал 3-4Гбайта/с с того же GPFS.

                                                                                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.