«Под капотом» СХД Huawei: фирменные технологии, и чего нет у других

    Представленные на рынке системы хранения данных, в основной своей массе, мало чем отличаются друг от друга, ведь многие вендоры заказывают оборудование едва ли не у одних и тех же ODM-производителей. У нас же почти все свое, начиная от шасси и заканчивая контроллерами, технологиями типа RAID 2.0+ и софтом.



    Под катом немного деталей про то, что такого необычного может быть в каждом из узлов системы хранения данных.

    Что интересного на уровне модуля


    Конструкционно все современные СХД от любого производителя выглядят одинаково: во фронтальную часть стального коробчатого шасси устанавливаются контроллеры, в тыльную — интерфейсные модули. Есть еще блоки питания и вентиляции. Казалось бы, все привычно и стандартно. Но на самом деле мы внедрили в эту парадигму много всего интересного.



    Начнем с монтажа элементов системы хранения в шасси. Магнитных 3,5-дюймовых дисков в СХД становится меньше, начинают преобладать гибридные системы и all-flash. Но даже несколько дисковых накопителей с частотой вращения шпинделя до 15 тысяч оборотов в минуту создают вибрацию, которую нельзя не учитывать. У нас на этот случай выработан целый свод рекомендаций – как распределять по дисковым полкам магнитные накопители с различными параметрами.

    Пусть даже на какие-то доли процентов, но на надежность это влияет. А в масштабе крупного ЦОДа доли процентов на один накопитель превращаются в ощутимые показатели отказов и сбоев. Чтобы вибрация отдельных дисков в меньшей степени передавалась через жесткую конструкцию шасси, салазки под диски мы оборудуем резиновыми или металлическими демпферами. Чтобы нейтрализовать еще один источник вибрации в СХД  – модули вентиляции – ставим двунаправленные вентиляторы, а все вращающиеся элементы изолируем от корпуса шасси.

    Для шпиндельных накопителей минимальная тряска — уже проблема: головки начинают сбиваться, производительность существенно падает. SSD – другое дело, вибрации они не боятся. Но надежная фиксация компонентов по-прежнему важна. Взять процесс доставки: ящик могут уронить или небрежно швырнуть, поставить боком или вверх тормашками. Поэтому у нас все компоненты СХД закрепляются строго в трех измерениях. Это исключает возможность их смещения при транспортировке, предохраняет разъемы от выскакивания из гнезд при случайном ударе.



    Когда-то давно мы начинали с разработки вычислительной техники для телеком-индустрии, где стандарты работоспособности по температуре и влажности традиционно высоки. И мы перенесли их и на другие направления: металлические детали СХД не окисляются даже при повышенной влажности – за счет применения никелирования и оцинковки.

    Тепловой дизайн наших СХД разрабатывался с упором на равномерность распределения температуры по шасси – чтобы не допустить ни перегрева, ни слишком сильного охлаждения какого-либо угла дисковой полки. Иначе не избежать физической деформации – пусть даже незначительной, но все-таки нарушающей геометрию и способной привести к сокращению срока работы оборудования. Таким образом выигрываются какие-то доли процента, но на общую надежность системы это все-таки влияет.

    Полупроводниковые тонкости


    Важные компоненты СХД мы дублируем: если что-то выйдет из строя – всегда есть подстраховка. К примеру, модули питания у младших моделей работают по схеме 1+1, у более солидных – 2+1 и даже 3+1.



    Контроллеры, которых в системе хранения как минимум два (одноконтроллерные системы мы не поставляем) тоже резервируются. В СХД 6800-й и более старших серий резервирование производится по схеме 3+1, в младших моделях – 1+1.

    Зарезервирован даже модуль управления (management board), который непосредственно на работу системы не влияет, а нужен только для изменения конфигурации и мониторинга. Кроме того, любые интерфейсные платы расширения для СХД у нас продаются только парами, чтобы у клиента имелся резерв.

    Все компоненты — БП, вентиляторы, контроллеры, менеджмент-модули и т.п. — оснащены микроконтроллерами, способными реагировать на определенные ситуации. Например, если вентилятор начинает сам по себе сбавлять обороты, на управляющий модуль посылается сигнал тревоги. В результате заказчик имеет полную картину состояния СХД – и может при необходимости заменить некоторые компоненты самостоятельно, не дожидаясь прибытия нашего сервисного инженера. А если политика безопасности заказчика позволяет, мы настраиваем контроллеры так, чтобы они передавали информацию о состоянии железа в нашу техподдержку.

    Свои чипы лучше и понятнее


    Мы – единственная компания, разрабатывающая собственные процессоры, чипы и контроллеры твердотельных накопителей для своих СХД.



    Так, в некоторых моделях в качестве основного процессора системы хранения (Storage Controller Chip) мы используем не классический Intel x86, а ARM-процессор HiSilicon, нашего дочернего предприятия. Дело в том, что ARM-архитектура в СХД – для расчета тех же RAID и дедупликации – показывает себя лучше, чем стандартная х86-я.

    Наша особая гордость — чипы для SSD-контроллеров. И если серверы у нас могут комплектоваться полупроводниковыми накопителями сторонних производителей (Intel, Samsung, Toshiba и др.), то в системы хранения данных мы устанавливаем только SSD собственной разработки.



    Микроконтроллер модуля ввода-вывода (smart I/O чип) в системах хранения – тоже разработка HiSilicon, как и Smart Management Chip для удаленного управления хранилищами. Использование собственных микросхем помогает нам лучше понимать, что происходит в каждый момент времени с каждой ячейкой памяти. Именно это позволило нам свести к минимуму задержки при обращении к данным в тех же СХД Dorado.



    Для магнитных дисков с точки зрения надежности чрезвычайно важен постоянный мониторинг. В наших СХД поддерживается система DHA (Disk Health Analyzer): диск сам непрерывно фиксирует, что с ним происходит, насколько хорошо он себя чувствует. Благодаря накоплению статистики и построению умных предиктивных моделей удается предсказать переход накопителя в критическое состояние за 2-3 месяца, а не за 5-10 дней. Диск еще «живой», данные на нем в полной безопасности – но заказчик уже готов его заменить при первых признаках возможного сбоя.

    RAID 2.0+


    Отказоустойчивый дизайн в СХД мы продумали и на уровне системы. Наша технология Smart Matrix представляет собой надстройку поверх PCIe – эта шина, на основе которой реализованы межконтроллерные соединения, особенно хорошо подходит для SSD.


    Smart Matrix обеспечивает, в частности, 4-контроллерный full mesh в нашем СХД Ocean Store 6800 v5. Для того чтобы каждый контроллер имел доступ ко всем дискам в системе, мы разработали особый SAS-бэкэнд. Кэш, естественно, зеркалируется между всеми активными в данный момент контроллерами.



    Когда происходит сбой контроллера, сервисы с него быстро переключаются на контроллер зеркала, а оставшиеся контроллеры восстанавливают взаимосвязь, чтобы зазеркалить друг друга. В то же время данные, записанные в кэш-память, имеют зеркальный резерв для обеспечения надежности системы.



    Система выдерживает отказ трех контроллеров. Как показано на рисунке, при отказе элемента управления A данные кэша контроллера B будут выбирать контроллер C или D для зеркального отображения кэша. Когда выходит из строя контроллер D, контроллеры B и C делают зеркальное отображение кэша.



    Система распределения данных RAID 2.0 – стандарт для наших СХД: виртуализация на уровне дисков давно пришла на смену безыскусному поблоковому копированию содержимого с одного носителя на другой. Все диски группируются в блоки, те объединяются в более крупные конгломераты двухуровневой структуры, а уже поверх ее верхнего уровня строятся логические тома, из которых составляются RAID-массивы.



    Основное преимущество такого подхода – сокращенное время перестроения массива (rebuild). Кроме того, в случае выхода из строя диска перестроение производится не на стоявший все это время «под паром» (hot spare) диск, а на свободное место во всех используемых дисках. На рисунке ниже в качестве примера показаны девять жестких дисков RAID5. Когда жесткий диск 1 вышел из строя, данные CKG0 и CKG1 повреждены. Система выбирает CK для реконструкции случайным образом.



    Нормальная скорость восстановления RAID составляет 30 МБ / с, поэтому для восстановления данных объемом 1 ТБ требуется 10 часов. RAID 2.0+ сокращает это время до 30 минут.

    Нашим разработчикам удалось добиться равномерного распределения нагрузки между всеми шпиндельными накопителями и SSD в составе системы. Это позволяет раскрыть потенциал гибридных СХД гораздо лучше, чем привычное использование твердотельных накопителей в роли кэша.



    В системах класса Dorado мы реализовали так называемся RAID-TP, массив с тройной четностью. Такая система продолжит работать при одновременном выходе из строя любых трех дисков. Это повышает надежность по сравнению с RAID 6 на два десятичных порядка, с RAID 5 — на три.



    RAID-TP мы рекомендуем для особо критичных данных, тем более что благодаря RAID 2.0 и высокоскоростным flash-накопителям на производительность это особого влияния не оказывает. Просто нужно больше свободного пространства для резервирования.



    Как правило, системы all-flash используют для СУБД с маленькими блоками данных и высоким IOPS. Последнее не очень хорошо для SSD: быстро исчерпывается запас прочности ячеек памяти NAND. В нашей реализации система сперва собирает в кэше накопителя сравнительно крупный блок данных, а затем целиком записывает его в ячейки. Это позволяет снизить нагрузку на диски, а также в более щадящем режиме вести «сборку мусора» и высвобождение места на SSD.

    Шесть девяток




    Перечисленное выше позволяет говорить об отказоустойчивости наших систем на уровне всего решения. Проверка реализуется на уровне приложения (например, СУБД Oracle), операционной системы, адаптера, СХД – и так вплоть до диска. Такой подход гарантирует, что ровно тот блок данных, который пришел на внешние порты, безо всяких повреждений и потерь будет записан на внутренние диски системы. Это подразумевает enterprise-уровень.



    Для надежного хранения данных, их защиты и восстановления, а также быстрого доступа к ним мы разработали целый ряд фирменных технологий.



    HyperMetro – наверное, самая интересная разработка последних полутора лет. Готовое решение на базе наших систем хранения для построения отказоустойчивого метро-кластера внедряется на уровне контроллера, никаких дополнительных шлюзов или серверов, кроме арбитра, оно не требует. Реализуется просто лицензией: две CХД Huawei плюс лицензия – и это работает.



    Технология HyperSnap обеспечивает непрерывную защиту данных без потери производительности. Система поддерживает RoW. Для предотвращения потери данных на СХД в каждый конкретный момент используется множество технологий: различные снэпшоты, клоны, копии.



    На основе наших СХД разработано и проверено на практике как минимум четыре решения для аварийного восстановления данных.



    Еще у нас есть решение для трех дата-центров 3DC Ring DR Solution: два ЦОДа в кластере, на третий идет репликация. Можем организовать организована асинхронную репликацию или миграцию со сторонних массивов. Имеется лицензия smart virtualization, благодаря чему можно использовать тома с большинства стандартных массивов с доступом по FC: Hitachi, DELL EMC, HPE и т.д. Решение реально отработанное, аналоги на рынке встречаются, но стоят дороже. Есть примеры использования в России.

    В итоге на уровне всего решения можно получить надежность шесть девяток, а на уровне локальной СХД — пять девяток. В общем, мы старались.

    Автор: Владимир Свинаренко, старший менеджер по IT-решениям Huawei Enterprise в России
    Huawei
    59,00
    Компания
    Поделиться публикацией

    Комментарии 27

      0

      А не подскажете, аналог IBM v5030 с учётом лицензий на дедуп/сжатие/репликацию и поддержки на три года сильно дешевле получается?

        0
        Чтобы это вы яснить необходимо обратиться к какому либо интегратору, Huawei ценник напрямую не выдает.
        0
        Я хоть и не очень люблю HUAWEI технику, навязанную мне в 2014 году, но справедливости ради надо сказать, что Storage HUAWEI действительно хороши.

        И EMC, и NetApp, очень далеко до HUAWEI. Отлично собраны, просты. Производительность — зашкаливает. А файловый ScaleOut от HUAWEI — недосягаем для EMC —одного.

        Чего, к сожалению, не скажешь о сетевом оборудовании

          0
          По поводу NetApp не скажу, так как не работал, а вот в части EMC поспорил бы. Как обладатель OceanStor 9000 с нодами P36E и Isilon с нодами NL410 могу сказать, что isilon на наших задачах выигрывает по производительности. Так же при равных объемах схд isilon компактнее. В плюс huawei могу занести отсутствие ограничений на размер файла.
            0
            Как Вы сами понимаете, задачи бывают разные. По тестам результаты близкие, при этом пиковые результаты на Oceanstor выше за счет в 2 раза большей масштабируемости. По месту в стойке – зависит какими накопителями/узлами набивать.
            0

            EMC может и далеко до HUAWEI, вот только про NetApp вы конечно загнули. Как бы ни я ни весь мир с вам не согласны.

              0
              Разумеется, это Ваше право. Но, говорить за весь мир, пожалуй, не стоит…

              Если же обратиться к цифрам и фактам, то мы увидим, что у NetApp достаточно небольшая доля рынка. Полагаю, на то есть причины… При этом, согласно отчетам Gartner, Huawei c 16 года плотно обосновалась в сегменте лидеров.

              e.huawei.com/topic/gartner2016-storage-en/index.html

              Если говорить о блочном доступе, то показатели того же NetApp далеки от Huawei — spcresults.org.

              Да, в качестве небольшого файлера Netapp действительно очень крут. Это надо признать. Проблема в том, что это только примерно 10% от типовых задач для Enterprise СХД. А в качестве большого Scale-Out альтернативу Huawei и EMC будет найти достаточно проблематично.
                0

                Я конечно понимаю, что Huawei себя прекрасно ощущает на волне импортозамещения. Но давайте фантазии про долю рынка Huawei отложим до того момента, когда это станет хоть немного соответстовать реальности.


                IDC

              0

              Google:

                0
                Здравствуйте, а откуда такая информация о сетевом оборудовании?
                Напишите мне на рабочий e-mail — shpak.mikhail1@huawei.com
                0

                В статье нет технологий, которых нет у других.

                  +1
                  Что касается уникальных технологий, то их в принципе на рынке много быть не может. Huawei, скорее, уникальна набором технологий, функциональностей и особенностей, которые способен предоставить вендор. Например, компания сама изготавливает SSD для СХД (речь именно о схемотехнике), поддерживает двойной кворум при метро-кластере. Кто-то кроме Huawei и Netapp умеет метро на файлере и блоке? А кто кроме Huawei (кстати об этом вскользь упомянуто в статье) и HDS G1000/1500 умеет Full Mesh на Back-end? Т.е. выдернули 3 контроллера из 4, а диски (никакие) не провисли.

                  Описать все возможности СХД Huawei в рамках одной статьи невозможно. Так что спасибо за Ваши вопросы. Давайте обсуждать.
                  0
                  Гхм. А чем революционный RAID 2.0 отличается от подобного в, например, 3PAR-е?
                  Даже картинки на слайдах сделаны в стиле 3PAR-овских:)
                    0
                    Вопрос: в Smart Matrix 2.0 между несколькими четвёрками контроллеров какой транспорт/протокол используется?
                      0
                      Smart Matrix 2.0 применим на «старших» СХД (6800 v5, 18000, Dorado) и при масштабировании дальше одного шасси представляет из себя проприетарный PCIe свич.
                      0
                      Все конечно классно, но вопрос по софту массива, все также сыро и теряет данные?
                        0
                        Простите, а у вас на СХД Huawei были случаи потери данных? Если да, то давайте обсуждать конкретные кейсы.

                        На сегодняшний день мы можем говорить о тысячах инсталляций СХД Huawei, в том числе у крупных заказчиков. Многие из них эксплуатируются более 5 лет. Событий с потерей данных зафиксировано не было.
                          0
                          Да. 2 раза. Не вижу смысла обсуждать, уже все обсудили.
                          Зафиксировано было. Есть 2 тикета.
                            0
                            А скиньте, пожалуйста, номера тикетов. Можно в личку. Проверим, разберёмся, прокомментируем.
                        0
                        Спасибо что выложили скриншоты презентаций с 3MS и вырезали «шалаши».
                        Huawei тоже использует ODM сборку, можно съездить на венгерский завод FXN, и посмотреть.
                        А теперь вопросы:
                        — Что случилось с платами аппаратной компрессии и дедупликации?
                        — Поддерживается ли VMware VVOL со всеми фичами? компрессией, дедупом и репликацией?
                        — Научились предоставлять доступ через виртуальные vWWN или vMAC?
                        — Реализуется ли полноценный Active Active на контроллерах? Или до сих пор надо LUN раздвигать между контроллерами руками?
                        — Возможно ли обновить OceanStor V2/V3 на V5 путём замены контроллера или контроллерной полки? Поддерживается ли гарантия на такую систему? Поддерживает ли это HQ?
                        — Поддерживается ли из коробки объектное хранилище? Можно ли прикрутить его к Kubernetes?

                        Возможно время блочных хранилок ушло. Сейчас WD, Seagate активно продают свои object storage appliance почти по цене дисков.
                          0
                          Спасибо что выложили скриншоты презентаций с 3MS и вырезали «шалаши».

                          Простите, что Вы называете «шалашами»? Мы все немного заинтригованы. Иероглифы?
                          Если Вы о них, то на данный момент с презентациями и материалами все нормально. Есть пакет русскоязычной документации.

                          Huawei тоже использует ODM сборку, можно съездить на венгерский завод FXN, и посмотреть.
                          Под СХД и серверы в Венгрии 100% ничего не собирается. Все в Китае. К тому же для сборки СХД Фокскон не привлекается. Все сами. Если пригласите, с удовольствием посетим венгерский завод Фокскон, чтобы понаблюдать как там выпускают СХД Huawei )).
                          А теперь вопросы:
                          — Что случилось с платами аппаратной компрессии и дедупликации?
                          Софтовые алгоритмы выдают производительность выше аппаратных карт, поэтому их убрали более 3 лет назад.

                          — Поддерживается ли VMware VVOL со всеми фичами? компрессией, дедупом и репликацией?
                          Поддерживается функционал VVol версии 1.0 подробнее support.huawei.com/enterprise/en/doc/EDOC1100006639
                          В целом с Vmware отношения сейчас интересные, благодаря наличию собственной платформы виртуализации FusionSphere

                          — Научились предоставлять доступ через виртуальные vWWN или vMAC?
                          Что имеется ввиду? NPIV всегда поддерживалось.

                          — Реализуется ли полноценный Active Active на контроллерах? Или до сих пор надо LUN раздвигать между контроллерами руками?
                          На массивах классический ALUA, кроме Hi-end – там Full-Mech архитектура. Руками раздвигать ничего не надо, СХД автоматом раскидывает тома по контроллерам.

                          — Возможно ли обновить OceanStor V2/V3 на V5 путём замены контроллера или контроллерной полки? Поддерживается ли гарантия на такую систему? Поддерживает ли это HQ?
                          Нет. Нет и нет. Печально конечно, но не дают реализовать это организационно, так как сильно вырастают внутренние издержки компании на поддержку таких систем. Кроме того есть аналогичное предложение для рынка на СХД Dorado: замена контролера поколения V3 на поколение V6, но оно воспринято рынком прохладно. Так что явно игра не стоит свеч.

                          — Поддерживается ли из коробки объектное хранилище? Можно ли прикрутить его к Kubernetes?
                          Объектное хранилище можно реализовать на Oceanstor 9000 или FusionStorage.
                          Если говорить про Kubernetes есть отдельное решение FusionStage developer.huawei.com/ict/en/site-paas
                          Используется для собственной инфраструктуры kubernetes.io/case-studies/huawei
                          0
                          Написал на почту, откуда у меня информация о Huawei.
                            0
                            Спасибо, получил и ответил. Со времен Вашего опыта прошло несколько лет.
                            Сейчас реализовано более 20 стадионов с Wi-Fi и дополнительным сервисами. Как пример — e.huawei.com/us/case-studies/global/older/201412170942

                            А зарегистрированным пользователям e.huawei.com – доступна презентация по Huawei Agile Stadium Solution

                            support.huawei.com/enterprise/en/doc/EDOC1000122196

                            Обратите внимание на слайды 59-63 по международным кейсам

                            И вот интересный кейс от партнера на Хабре — habr.com/ru/company/lanit/blog/348916
                              0
                              Да, это правильно, мы строили Wi-Fi в 2014 году, на еще " сыром" железе. Но осадок остался до сих пор. И на соседнем " Germany’s Largest Stadium". Разгребаем вместе до сих пор. Опыт «Тушинского стадиона » мне тоже известен.

                              По теме. СХД Huawei.
                              ПС. Меня не надо подозревать в предвзятости, Huawei уже не спонсор Шальке 04.

                              Мы натолкнулись на задачу с которым не справился EMC Isilon, хранение видео контента в непредсказуемом объеме. Было ясно, нужен Scale-Out. Практически все нововведения в футболе откатывались у меня на «Хозяйстве». Ассистент судьи, Scouting, медицинская телеметрия. Видео материал надо где-то хранить. Наши Scout-ы стали заваливать меня своими файлами, причем в немыслимых объемах и размерах. Это был " приговор" для EMC Isilon.
                              А вот Huawei OceanStor 9000 Scale-out-NAS — уже 3-й год отлично справляется. Ни объем и размер файлов его не убивают

                              Давно используем и блочный OceanStor 5300. Отличная машина. Уже несколько раз добавил SSD и NL-SAS полки. Сырой объем уже превысил 300 Т. Великолепный tiering, очень доступная цена.
                              пс. извеняюсь за «кривоватый» русский язык, редко использую.

                                0
                                Жаль за «осадок», но чтобы не пойти по пути «не видел, но осуждаю» в текущей парадигме, лучше будет обратиться к своему аккаунту, благо у вас уже есть кейсы на СХД. Один из распространенных кейсов сейчас — это большая труба от WiFi потребителей до приложений. Вход в среду точки доступа ac wave2, далее на уровень распределения на уровне встроенного контроллера на ENP Коммутаторе S12700 с Терабитной (до 1Тбит — на слот точнее) пропускной способностью. Подобное решение уже в платформе Agile Connected Stadium
                            0
                            Владимир, добрый день, Спасибо за обзор!
                            Прошу уточнить, прогнозы технологии DHA (Disk Health Analyzer), подлежат устранению по гарантии или это отдельный сервис?
                              0
                              Вам спасибо за уделенное время! )

                              > Прошу уточнить, прогнозы технологии DHA (Disk Health Analyzer), подлежат устранению по гарантии или это отдельный сервис?

                              Это стандартный функционал, диски заменяются по гарантии.

                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                            Самое читаемое