«Под капотом» СХД Huawei: фирменные технологии, и чего нет у других

    Представленные на рынке системы хранения данных, в основной своей массе, мало чем отличаются друг от друга, ведь многие вендоры заказывают оборудование едва ли не у одних и тех же ODM-производителей. У нас же почти все свое, начиная от шасси и заканчивая контроллерами, технологиями типа RAID 2.0+ и софтом.



    Под катом немного деталей про то, что такого необычного может быть в каждом из узлов системы хранения данных.

    Что интересного на уровне модуля


    Конструкционно все современные СХД от любого производителя выглядят одинаково: во фронтальную часть стального коробчатого шасси устанавливаются контроллеры, в тыльную — интерфейсные модули. Есть еще блоки питания и вентиляции. Казалось бы, все привычно и стандартно. Но на самом деле мы внедрили в эту парадигму много всего интересного.



    Начнем с монтажа элементов системы хранения в шасси. Магнитных 3,5-дюймовых дисков в СХД становится меньше, начинают преобладать гибридные системы и all-flash. Но даже несколько дисковых накопителей с частотой вращения шпинделя до 15 тысяч оборотов в минуту создают вибрацию, которую нельзя не учитывать. У нас на этот случай выработан целый свод рекомендаций – как распределять по дисковым полкам магнитные накопители с различными параметрами.

    Пусть даже на какие-то доли процентов, но на надежность это влияет. А в масштабе крупного ЦОДа доли процентов на один накопитель превращаются в ощутимые показатели отказов и сбоев. Чтобы вибрация отдельных дисков в меньшей степени передавалась через жесткую конструкцию шасси, салазки под диски мы оборудуем резиновыми или металлическими демпферами. Чтобы нейтрализовать еще один источник вибрации в СХД  – модули вентиляции – ставим двунаправленные вентиляторы, а все вращающиеся элементы изолируем от корпуса шасси.

    Для шпиндельных накопителей минимальная тряска — уже проблема: головки начинают сбиваться, производительность существенно падает. SSD – другое дело, вибрации они не боятся. Но надежная фиксация компонентов по-прежнему важна. Взять процесс доставки: ящик могут уронить или небрежно швырнуть, поставить боком или вверх тормашками. Поэтому у нас все компоненты СХД закрепляются строго в трех измерениях. Это исключает возможность их смещения при транспортировке, предохраняет разъемы от выскакивания из гнезд при случайном ударе.



    Когда-то давно мы начинали с разработки вычислительной техники для телеком-индустрии, где стандарты работоспособности по температуре и влажности традиционно высоки. И мы перенесли их и на другие направления: металлические детали СХД не окисляются даже при повышенной влажности – за счет применения никелирования и оцинковки.

    Тепловой дизайн наших СХД разрабатывался с упором на равномерность распределения температуры по шасси – чтобы не допустить ни перегрева, ни слишком сильного охлаждения какого-либо угла дисковой полки. Иначе не избежать физической деформации – пусть даже незначительной, но все-таки нарушающей геометрию и способной привести к сокращению срока работы оборудования. Таким образом выигрываются какие-то доли процента, но на общую надежность системы это все-таки влияет.

    Полупроводниковые тонкости


    Важные компоненты СХД мы дублируем: если что-то выйдет из строя – всегда есть подстраховка. К примеру, модули питания у младших моделей работают по схеме 1+1, у более солидных – 2+1 и даже 3+1.



    Контроллеры, которых в системе хранения как минимум два (одноконтроллерные системы мы не поставляем) тоже резервируются. В СХД 6800-й и более старших серий резервирование производится по схеме 3+1, в младших моделях – 1+1.

    Зарезервирован даже модуль управления (management board), который непосредственно на работу системы не влияет, а нужен только для изменения конфигурации и мониторинга. Кроме того, любые интерфейсные платы расширения для СХД у нас продаются только парами, чтобы у клиента имелся резерв.

    Все компоненты — БП, вентиляторы, контроллеры, менеджмент-модули и т.п. — оснащены микроконтроллерами, способными реагировать на определенные ситуации. Например, если вентилятор начинает сам по себе сбавлять обороты, на управляющий модуль посылается сигнал тревоги. В результате заказчик имеет полную картину состояния СХД – и может при необходимости заменить некоторые компоненты самостоятельно, не дожидаясь прибытия нашего сервисного инженера. А если политика безопасности заказчика позволяет, мы настраиваем контроллеры так, чтобы они передавали информацию о состоянии железа в нашу техподдержку.

    Свои чипы лучше и понятнее


    Мы – единственная компания, разрабатывающая собственные процессоры, чипы и контроллеры твердотельных накопителей для своих СХД.



    Так, в некоторых моделях в качестве основного процессора системы хранения (Storage Controller Chip) мы используем не классический Intel x86, а ARM-процессор HiSilicon, нашего дочернего предприятия. Дело в том, что ARM-архитектура в СХД – для расчета тех же RAID и дедупликации – показывает себя лучше, чем стандартная х86-я.

    Наша особая гордость — чипы для SSD-контроллеров. И если серверы у нас могут комплектоваться полупроводниковыми накопителями сторонних производителей (Intel, Samsung, Toshiba и др.), то в системы хранения данных мы устанавливаем только SSD собственной разработки.



    Микроконтроллер модуля ввода-вывода (smart I/O чип) в системах хранения – тоже разработка HiSilicon, как и Smart Management Chip для удаленного управления хранилищами. Использование собственных микросхем помогает нам лучше понимать, что происходит в каждый момент времени с каждой ячейкой памяти. Именно это позволило нам свести к минимуму задержки при обращении к данным в тех же СХД Dorado.



    Для магнитных дисков с точки зрения надежности чрезвычайно важен постоянный мониторинг. В наших СХД поддерживается система DHA (Disk Health Analyzer): диск сам непрерывно фиксирует, что с ним происходит, насколько хорошо он себя чувствует. Благодаря накоплению статистики и построению умных предиктивных моделей удается предсказать переход накопителя в критическое состояние за 2-3 месяца, а не за 5-10 дней. Диск еще «живой», данные на нем в полной безопасности – но заказчик уже готов его заменить при первых признаках возможного сбоя.

    RAID 2.0+


    Отказоустойчивый дизайн в СХД мы продумали и на уровне системы. Наша технология Smart Matrix представляет собой надстройку поверх PCIe – эта шина, на основе которой реализованы межконтроллерные соединения, особенно хорошо подходит для SSD.


    Smart Matrix обеспечивает, в частности, 4-контроллерный full mesh в нашем СХД Ocean Store 6800 v5. Для того чтобы каждый контроллер имел доступ ко всем дискам в системе, мы разработали особый SAS-бэкэнд. Кэш, естественно, зеркалируется между всеми активными в данный момент контроллерами.



    Когда происходит сбой контроллера, сервисы с него быстро переключаются на контроллер зеркала, а оставшиеся контроллеры восстанавливают взаимосвязь, чтобы зазеркалить друг друга. В то же время данные, записанные в кэш-память, имеют зеркальный резерв для обеспечения надежности системы.



    Система выдерживает отказ трех контроллеров. Как показано на рисунке, при отказе элемента управления A данные кэша контроллера B будут выбирать контроллер C или D для зеркального отображения кэша. Когда выходит из строя контроллер D, контроллеры B и C делают зеркальное отображение кэша.



    Система распределения данных RAID 2.0 – стандарт для наших СХД: виртуализация на уровне дисков давно пришла на смену безыскусному поблоковому копированию содержимого с одного носителя на другой. Все диски группируются в блоки, те объединяются в более крупные конгломераты двухуровневой структуры, а уже поверх ее верхнего уровня строятся логические тома, из которых составляются RAID-массивы.



    Основное преимущество такого подхода – сокращенное время перестроения массива (rebuild). Кроме того, в случае выхода из строя диска перестроение производится не на стоявший все это время «под паром» (hot spare) диск, а на свободное место во всех используемых дисках. На рисунке ниже в качестве примера показаны девять жестких дисков RAID5. Когда жесткий диск 1 вышел из строя, данные CKG0 и CKG1 повреждены. Система выбирает CK для реконструкции случайным образом.



    Нормальная скорость восстановления RAID составляет 30 МБ / с, поэтому для восстановления данных объемом 1 ТБ требуется 10 часов. RAID 2.0+ сокращает это время до 30 минут.

    Нашим разработчикам удалось добиться равномерного распределения нагрузки между всеми шпиндельными накопителями и SSD в составе системы. Это позволяет раскрыть потенциал гибридных СХД гораздо лучше, чем привычное использование твердотельных накопителей в роли кэша.



    В системах класса Dorado мы реализовали так называемся RAID-TP, массив с тройной четностью. Такая система продолжит работать при одновременном выходе из строя любых трех дисков. Это повышает надежность по сравнению с RAID 6 на два десятичных порядка, с RAID 5 — на три.



    RAID-TP мы рекомендуем для особо критичных данных, тем более что благодаря RAID 2.0 и высокоскоростным flash-накопителям на производительность это особого влияния не оказывает. Просто нужно больше свободного пространства для резервирования.



    Как правило, системы all-flash используют для СУБД с маленькими блоками данных и высоким IOPS. Последнее не очень хорошо для SSD: быстро исчерпывается запас прочности ячеек памяти NAND. В нашей реализации система сперва собирает в кэше накопителя сравнительно крупный блок данных, а затем целиком записывает его в ячейки. Это позволяет снизить нагрузку на диски, а также в более щадящем режиме вести «сборку мусора» и высвобождение места на SSD.

    Шесть девяток




    Перечисленное выше позволяет говорить об отказоустойчивости наших систем на уровне всего решения. Проверка реализуется на уровне приложения (например, СУБД Oracle), операционной системы, адаптера, СХД – и так вплоть до диска. Такой подход гарантирует, что ровно тот блок данных, который пришел на внешние порты, безо всяких повреждений и потерь будет записан на внутренние диски системы. Это подразумевает enterprise-уровень.



    Для надежного хранения данных, их защиты и восстановления, а также быстрого доступа к ним мы разработали целый ряд фирменных технологий.



    HyperMetro – наверное, самая интересная разработка последних полутора лет. Готовое решение на базе наших систем хранения для построения отказоустойчивого метро-кластера внедряется на уровне контроллера, никаких дополнительных шлюзов или серверов, кроме арбитра, оно не требует. Реализуется просто лицензией: две CХД Huawei плюс лицензия – и это работает.



    Технология HyperSnap обеспечивает непрерывную защиту данных без потери производительности. Система поддерживает RoW. Для предотвращения потери данных на СХД в каждый конкретный момент используется множество технологий: различные снэпшоты, клоны, копии.



    На основе наших СХД разработано и проверено на практике как минимум четыре решения для аварийного восстановления данных.



    Еще у нас есть решение для трех дата-центров 3DC Ring DR Solution: два ЦОДа в кластере, на третий идет репликация. Можем организовать организована асинхронную репликацию или миграцию со сторонних массивов. Имеется лицензия smart virtualization, благодаря чему можно использовать тома с большинства стандартных массивов с доступом по FC: Hitachi, DELL EMC, HPE и т.д. Решение реально отработанное, аналоги на рынке встречаются, но стоят дороже. Есть примеры использования в России.

    В итоге на уровне всего решения можно получить надежность шесть девяток, а на уровне локальной СХД — пять девяток. В общем, мы старались.

    Автор: Владимир Свинаренко, старший менеджер по IT-решениям Huawei Enterprise в России
    Huawei
    Компания

    Комментарии 31

      0

      А не подскажете, аналог IBM v5030 с учётом лицензий на дедуп/сжатие/репликацию и поддержки на три года сильно дешевле получается?

        0
        Чтобы это вы яснить необходимо обратиться к какому либо интегратору, Huawei ценник напрямую не выдает.
        0
        Я хоть и не очень люблю HUAWEI технику, навязанную мне в 2014 году, но справедливости ради надо сказать, что Storage HUAWEI действительно хороши.

        И EMC, и NetApp, очень далеко до HUAWEI. Отлично собраны, просты. Производительность — зашкаливает. А файловый ScaleOut от HUAWEI — недосягаем для EMC —одного.

        Чего, к сожалению, не скажешь о сетевом оборудовании

          0
          По поводу NetApp не скажу, так как не работал, а вот в части EMC поспорил бы. Как обладатель OceanStor 9000 с нодами P36E и Isilon с нодами NL410 могу сказать, что isilon на наших задачах выигрывает по производительности. Так же при равных объемах схд isilon компактнее. В плюс huawei могу занести отсутствие ограничений на размер файла.
            0
            Как Вы сами понимаете, задачи бывают разные. По тестам результаты близкие, при этом пиковые результаты на Oceanstor выше за счет в 2 раза большей масштабируемости. По месту в стойке – зависит какими накопителями/узлами набивать.
            0

            EMC может и далеко до HUAWEI, вот только про NetApp вы конечно загнули. Как бы ни я ни весь мир с вам не согласны.

              0
              Разумеется, это Ваше право. Но, говорить за весь мир, пожалуй, не стоит…

              Если же обратиться к цифрам и фактам, то мы увидим, что у NetApp достаточно небольшая доля рынка. Полагаю, на то есть причины… При этом, согласно отчетам Gartner, Huawei c 16 года плотно обосновалась в сегменте лидеров.

              e.huawei.com/topic/gartner2016-storage-en/index.html

              Если говорить о блочном доступе, то показатели того же NetApp далеки от Huawei — spcresults.org.

              Да, в качестве небольшого файлера Netapp действительно очень крут. Это надо признать. Проблема в том, что это только примерно 10% от типовых задач для Enterprise СХД. А в качестве большого Scale-Out альтернативу Huawei и EMC будет найти достаточно проблематично.
                0

                Я конечно понимаю, что Huawei себя прекрасно ощущает на волне импортозамещения. Но давайте фантазии про долю рынка Huawei отложим до того момента, когда это станет хоть немного соответстовать реальности.


                IDC

              0

              Google:

                0
                Здравствуйте, а откуда такая информация о сетевом оборудовании?
                Напишите мне на рабочий e-mail — shpak.mikhail1@huawei.com
                0

                В статье нет технологий, которых нет у других.

                  +1
                  Что касается уникальных технологий, то их в принципе на рынке много быть не может. Huawei, скорее, уникальна набором технологий, функциональностей и особенностей, которые способен предоставить вендор. Например, компания сама изготавливает SSD для СХД (речь именно о схемотехнике), поддерживает двойной кворум при метро-кластере. Кто-то кроме Huawei и Netapp умеет метро на файлере и блоке? А кто кроме Huawei (кстати об этом вскользь упомянуто в статье) и HDS G1000/1500 умеет Full Mesh на Back-end? Т.е. выдернули 3 контроллера из 4, а диски (никакие) не провисли.

                  Описать все возможности СХД Huawei в рамках одной статьи невозможно. Так что спасибо за Ваши вопросы. Давайте обсуждать.
                  0
                  Гхм. А чем революционный RAID 2.0 отличается от подобного в, например, 3PAR-е?
                  Даже картинки на слайдах сделаны в стиле 3PAR-овских:)
                    0
                    Вопрос: в Smart Matrix 2.0 между несколькими четвёрками контроллеров какой транспорт/протокол используется?
                      0
                      Smart Matrix 2.0 применим на «старших» СХД (6800 v5, 18000, Dorado) и при масштабировании дальше одного шасси представляет из себя проприетарный PCIe свич.
                      0
                      Все конечно классно, но вопрос по софту массива, все также сыро и теряет данные?
                        0
                        Простите, а у вас на СХД Huawei были случаи потери данных? Если да, то давайте обсуждать конкретные кейсы.

                        На сегодняшний день мы можем говорить о тысячах инсталляций СХД Huawei, в том числе у крупных заказчиков. Многие из них эксплуатируются более 5 лет. Событий с потерей данных зафиксировано не было.
                          0
                          Да. 2 раза. Не вижу смысла обсуждать, уже все обсудили.
                          Зафиксировано было. Есть 2 тикета.
                            0
                            А скиньте, пожалуйста, номера тикетов. Можно в личку. Проверим, разберёмся, прокомментируем.
                        0
                        Спасибо что выложили скриншоты презентаций с 3MS и вырезали «шалаши».
                        Huawei тоже использует ODM сборку, можно съездить на венгерский завод FXN, и посмотреть.
                        А теперь вопросы:
                        — Что случилось с платами аппаратной компрессии и дедупликации?
                        — Поддерживается ли VMware VVOL со всеми фичами? компрессией, дедупом и репликацией?
                        — Научились предоставлять доступ через виртуальные vWWN или vMAC?
                        — Реализуется ли полноценный Active Active на контроллерах? Или до сих пор надо LUN раздвигать между контроллерами руками?
                        — Возможно ли обновить OceanStor V2/V3 на V5 путём замены контроллера или контроллерной полки? Поддерживается ли гарантия на такую систему? Поддерживает ли это HQ?
                        — Поддерживается ли из коробки объектное хранилище? Можно ли прикрутить его к Kubernetes?

                        Возможно время блочных хранилок ушло. Сейчас WD, Seagate активно продают свои object storage appliance почти по цене дисков.
                          0
                          Спасибо что выложили скриншоты презентаций с 3MS и вырезали «шалаши».

                          Простите, что Вы называете «шалашами»? Мы все немного заинтригованы. Иероглифы?
                          Если Вы о них, то на данный момент с презентациями и материалами все нормально. Есть пакет русскоязычной документации.

                          Huawei тоже использует ODM сборку, можно съездить на венгерский завод FXN, и посмотреть.
                          Под СХД и серверы в Венгрии 100% ничего не собирается. Все в Китае. К тому же для сборки СХД Фокскон не привлекается. Все сами. Если пригласите, с удовольствием посетим венгерский завод Фокскон, чтобы понаблюдать как там выпускают СХД Huawei )).
                          А теперь вопросы:
                          — Что случилось с платами аппаратной компрессии и дедупликации?
                          Софтовые алгоритмы выдают производительность выше аппаратных карт, поэтому их убрали более 3 лет назад.

                          — Поддерживается ли VMware VVOL со всеми фичами? компрессией, дедупом и репликацией?
                          Поддерживается функционал VVol версии 1.0 подробнее support.huawei.com/enterprise/en/doc/EDOC1100006639
                          В целом с Vmware отношения сейчас интересные, благодаря наличию собственной платформы виртуализации FusionSphere

                          — Научились предоставлять доступ через виртуальные vWWN или vMAC?
                          Что имеется ввиду? NPIV всегда поддерживалось.

                          — Реализуется ли полноценный Active Active на контроллерах? Или до сих пор надо LUN раздвигать между контроллерами руками?
                          На массивах классический ALUA, кроме Hi-end – там Full-Mech архитектура. Руками раздвигать ничего не надо, СХД автоматом раскидывает тома по контроллерам.

                          — Возможно ли обновить OceanStor V2/V3 на V5 путём замены контроллера или контроллерной полки? Поддерживается ли гарантия на такую систему? Поддерживает ли это HQ?
                          Нет. Нет и нет. Печально конечно, но не дают реализовать это организационно, так как сильно вырастают внутренние издержки компании на поддержку таких систем. Кроме того есть аналогичное предложение для рынка на СХД Dorado: замена контролера поколения V3 на поколение V6, но оно воспринято рынком прохладно. Так что явно игра не стоит свеч.

                          — Поддерживается ли из коробки объектное хранилище? Можно ли прикрутить его к Kubernetes?
                          Объектное хранилище можно реализовать на Oceanstor 9000 или FusionStorage.
                          Если говорить про Kubernetes есть отдельное решение FusionStage developer.huawei.com/ict/en/site-paas
                          Используется для собственной инфраструктуры kubernetes.io/case-studies/huawei
                          0
                          Написал на почту, откуда у меня информация о Huawei.
                            0
                            Спасибо, получил и ответил. Со времен Вашего опыта прошло несколько лет.
                            Сейчас реализовано более 20 стадионов с Wi-Fi и дополнительным сервисами. Как пример — e.huawei.com/us/case-studies/global/older/201412170942

                            А зарегистрированным пользователям e.huawei.com – доступна презентация по Huawei Agile Stadium Solution

                            support.huawei.com/enterprise/en/doc/EDOC1000122196

                            Обратите внимание на слайды 59-63 по международным кейсам

                            И вот интересный кейс от партнера на Хабре — habr.com/ru/company/lanit/blog/348916
                              0
                              Да, это правильно, мы строили Wi-Fi в 2014 году, на еще " сыром" железе. Но осадок остался до сих пор. И на соседнем " Germany’s Largest Stadium". Разгребаем вместе до сих пор. Опыт «Тушинского стадиона » мне тоже известен.

                              По теме. СХД Huawei.
                              ПС. Меня не надо подозревать в предвзятости, Huawei уже не спонсор Шальке 04.

                              Мы натолкнулись на задачу с которым не справился EMC Isilon, хранение видео контента в непредсказуемом объеме. Было ясно, нужен Scale-Out. Практически все нововведения в футболе откатывались у меня на «Хозяйстве». Ассистент судьи, Scouting, медицинская телеметрия. Видео материал надо где-то хранить. Наши Scout-ы стали заваливать меня своими файлами, причем в немыслимых объемах и размерах. Это был " приговор" для EMC Isilon.
                              А вот Huawei OceanStor 9000 Scale-out-NAS — уже 3-й год отлично справляется. Ни объем и размер файлов его не убивают

                              Давно используем и блочный OceanStor 5300. Отличная машина. Уже несколько раз добавил SSD и NL-SAS полки. Сырой объем уже превысил 300 Т. Великолепный tiering, очень доступная цена.
                              пс. извеняюсь за «кривоватый» русский язык, редко использую.

                                0
                                Жаль за «осадок», но чтобы не пойти по пути «не видел, но осуждаю» в текущей парадигме, лучше будет обратиться к своему аккаунту, благо у вас уже есть кейсы на СХД. Один из распространенных кейсов сейчас — это большая труба от WiFi потребителей до приложений. Вход в среду точки доступа ac wave2, далее на уровень распределения на уровне встроенного контроллера на ENP Коммутаторе S12700 с Терабитной (до 1Тбит — на слот точнее) пропускной способностью. Подобное решение уже в платформе Agile Connected Stadium
                            0
                            Владимир, добрый день, Спасибо за обзор!
                            Прошу уточнить, прогнозы технологии DHA (Disk Health Analyzer), подлежат устранению по гарантии или это отдельный сервис?
                              0
                              Вам спасибо за уделенное время! )

                              > Прошу уточнить, прогнозы технологии DHA (Disk Health Analyzer), подлежат устранению по гарантии или это отдельный сервис?

                              Это стандартный функционал, диски заменяются по гарантии.
                              0
                              Ищу решение для хранения типа Scale-Out стандартными модулями. Что Huawei может предложить в этом сегменте? К сожалению оффсайт Huawei это то еще УГ.
                                0
                                Здравствуйте! Посмотрите на Huawei Fusion Storage. Это горизонтально-масштабируемое хранилище из стандартных компонент, SDS. e.huawei.com/en/material/datacenter/storage/e3c3cd9c08704fffb470e140d71435c2

                                В РФ уже внедряли. Какая у вас задача?
                                  0
                                  Спасибо.
                                  Задача тривиальная — бесконечный NAS.)
                                  Посмотрел. Вроде неплохая вещь.
                                  С кем можно пообщаться подробнее? Нужно одно хранилище с файловым доступом и начальным эффективным объемом 100ТБ для файловой помойки. и Одно с блочным -для БД (50 ТБ для начала).
                                  Просто я интуитивно понимаю, что просто купить ноды — этого мало. Поэтому нужна более подробная информация.
                                    0
                                    написал вам личное сообщение

                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                              Самое читаемое