Привет, Хабр!
Нам в руки попал китайский массив. Но не прям в руки, а удаленно. И даже не один, а сразу два. И даже не Huawei, а Maipu. В этом посте мы покажем вам результаты наших тестов, начиная с нагрузки и надежности. А позже, во второй части, расскажем о функционале.

Тестирование проводилось совместно с вендором, который оперативно закрывал появлявшиеся вопросы, несмотря на разницу во времени.
У нашего тестирования было несколько целей:
Установить возможность использования дискового массива для хранения продуктивных данных нагруженных транзакционных СУБД, а также сред виртуализации.
Изучить дисковый массив Maipu и его позиционирование на рынке систем хранения данных на территории РФ.
Познакомиться с самим массивом и вендором. Понять его возможное позиционирование на рынке систем хранения данных РФ.
Проверить его функционал, понять, насколько он подходит для средних и крупных инфраструктур уровня enterprise.
Погонять массив под нагрузкой и понять, насколько он готов конкурировать с уже существующими на нашем рынке импортными и отечественными решениями.
Мы взяли модель Maipu MPS5580G2. В рамках нашего тестирования проверяли, насколько массив достигает показателей надежности и производительности, заявленных в его документации. Для сравнения результатов мы использовали тесты массивов Huawei Dorado 5,6-8kv6 схожей конфигурации, с которыми у нас богатый опыт внедрений. Тестирование проводилось в удаленном формате, все тестовое окружение, включая команду добросовестных китайцев, находилось в прекрасном городе Ченду.
Схема стенда изображена на рисунке ниже (Рис. 1). Подключение серверов нагрузочного тестирования к дисковым массивам было реализовано через один коммутатор сети хранения данных FC.

Оборудование стенда
Массив состоит из двух контроллеров хранения, размещаемых в корпусе высотой 4U и подключенной дисковой полкой DBS (2,5 дюйма). Массив представляет собой Unified Storage — SAN- и NAS- хранилище в одном, но функционал NAS появится во втором квартале 2025 года. Каждый контроллер оснащен двумя процессорами Intel Xeon и 384 ГБ ECC RAM с возможностью апгрейда до 768 ГБ. Кластерный интерконнект находится внутри контроллерной полки. Режим работы — Active-Active.
Спецификация на дисковый массив указана в таблице (Табл. 1).

На самом деле конфигурация выглядит вполне себе достойно. В качестве процессоров используется Intel Xeon, есть батарейки под кеш, PCI-E 3.0, возможность scale-out до 32 контроллеров, большое количество модулей расширения под разные задачи, до 3200 дисков разного типа (от NVMe до NLSAS) в рамках одной контроллерной пары и отсутствие SPOF. Все компоненты задублированы! Несмотря на конструктивные особенности (нет возможности установить диски в контроллер-полку), состав «железа» выглядит впечатляюще и чем-то схож с Huawei Dorado 8000V6. Чем не корабль Enterprise?!
Для тестирования производитель также на своей территории любезно предоставил два сервера х86 в следующей конфигурации (каждый):
2 x Intel Xeon Silver 4116 12C 2.10GHz;
128 GB RAM;
2 x 960 GB SSD (boot);
1 x 2x16G SFP+.
Все вышеописанное оборудование было подключено в один коммутатор Brocade, с помощью которого по протоколу FC сервера получали доступ к логическим томам дискового массива со скоростью передачи данных 16 Гбит/сек.
Состав системного и прикладного программного обеспечения представлен в таблице (Табл. 2).

На базе имеющихся дисков был создан один пул на базе RAID6 и восемь логических томов по 6 ТБ каждый. Все эти тома были презентованы кластеру виртуализации VMware из двух хостов и размечены как датасторы.
Подробные результаты тестирования

Нагрузочные испытания выполнялись с использованием эмулятора нагрузки HCIbench, развернутой в виде виртуальной машины. Основные используемые ключи:
Threads per disk — количество потоков;
Xfersize — размер блока (варьировался от 8k до 32k);
Rdpct — процент чтения;
Seekpct — процент случайности;
Working set — рабочий объем данных.
Продолжительность тестирования — от 5 до 15 минут.
Блочный доступ
Смешанная нагрузка 70r/30w
Сводные показатели производительности (70% чтения — 30% записи) отображены в таблице (Табл. 3).

Пример графиков производительности для профиля vdb-6vmdk-10ws-8k-70rdpct-100randompct-2threads


Смешанная нагрузка 60r/40w
Сводные показатели производительности (60% чтения — 40% записи) отображены в таблице (Табл. 4).

Смешанная нагрузка 50r/50w
Сводные показатели производительности (50% чтения — 50% записи) отображены в таблице (Табл. 5).

Смешанная нагрузка 30r/70w
Сводные показатели производительности (30% чтения — 70% записи) отображены в таблице (Табл. 6).

Последовательная запись
Сводные показатели производительности последовательной записи отображены в таблице (Табл. 7).

Пример графиков производительности для профиля vdb-6vmdk-10ws-256k-0rdpct-0randompct-2threads


Последовательное чтение
Сводные показатели производительности последовательной записи отображены в таблице (Табл. 8).

Ну что же, начало очень впечатляет! На смешанных профилях нагрузки, которые свойственны системам виртуализации, мы получили более 200к IOPS на мелком блоке и время отклика менее 0,5 мс! На последовательных операциях мы уперлись в количество FC интерфейсов и полностью их утилизировали. Это очень хороший результат. Если есть желание делать резервные копии и восстанавливаться из них за минимальное время. Да-да, бэкапы на флеше. Так тоже бывает в еnterprise!
Испытания надежности
При проведении тестов на отказоустойчивость выполнялась проверка работоспособности с помощью встроенной системы мониторинга, которая должна регистрировать изменение статуса компонентов дискового массива. Во время выполнения тестов на отказоустойчивость на дисковый массив была создана постоянная фоновая нагрузка порядка 140k IOPS с использованием генератора нагрузки HCIbench.
На этом этапе выполнены проверки на устойчивость к следующим отказам:
Обеспечение непрерывности работы при отключении портов ввода/вывода FC.
Обеспечение непрерывности работы при отключении SAS-портов от дисковой полки.
Обеспечение непрерывности работы при отказе одного диска в дисковой полке.
Обеспечение непрерывности работы при отказе (перезагрузке и выключении) одного контроллера дискового массива.
Отключение блока питания контроллерного шасси от электрической сети.
Отключение FC-портов ввода/вывода
Проверка выполнялась путем отключения модуля ввода/вывода FC на контроллере SP2 из веб-интерфейса (Рис. 2). После нажатия «power Off» мы получили предупреждение перед выполнением операции выключения.

Также мы получили оповещения в веб-интерфейсе (Рис. 3), что инициаторы хостов стали недоступны.

Была замечена незначительная просадка производительности (Рис. 4).

Возвращаем модуль ввода/вывода в работу также через веб-интерфейс и видим, что ошибки уходят спустя две-три секунды (Рис. 5).

Тут ничего необычного. Нагрузка равномерно распределяется между портами FC согласно установленной политике VMware, и система оповещений отрабатывает штатно. Некоторым производителям дисковых массивов в РФ это не всегда доступно, но они стараются!
Отключение SAS-порта от дисковой полки
Для этой проверки выполняется выключение модуля ввода/вывода SAS. Отключение SAS-порта (со стороны дисковой полки) привело к просадке производительности, что видно на графиках, но без прерывания ввода/вывода (Рис. 6). В момент отключения модуля ввода/вывода SAS-системой заведен алерт, статус массива в веб-интерфейсе отображается как «Missing» (Рис. 6).

Наблюдаем просадку производительности. IOPS упали с 170к до 130к, время отклика выросло с 0,3 мс до 0,5 мс, ввод/вывод IOPS через FC снизился с 42к до 33к (Рис. 7).

После включения модуля SAS штатная работа СХД восстановилась спустя 3–5 с, ошибки ушли без внешнего вмешательства (Рис. 8).

В данной проверке также наблюдаем штатное поведение и в логике работы, и в системе оповещений. Пока все стабильно!
Отказ одного диска в дисковой полке
Выбор диска, подлежащего извлечению, осуществлялся в случайном порядке. Логически один SSD-диск из слота 21 был переведен в офлайн (Рис. 9). Просадки производительности замечено не было, а диск представители вендора вернули с помощью переусадки.

В этой проверке мы также не заметили нестандартного поведения. Сломали диск, начался ребилд, диск вернули — все работает. Обратим внимание, что во всех потенциально деструктивных проверках были пречеки — специальные окна с предупреждениями, которые требовали подтверждения того или иного действия. Чтобы вывести порт из строя, нужно было явно написать «YES». Хотя иногда вмешивалась китайская раскладка и вносила свои коррективы. :)
Отказ контроллера системы хранения данных
Отказ контроллера был выполнен путем перезагрузки контроллера. Была просадка производительности (около 30%), но доступ к данным потерян не был.
Отключение БП контроллерного шасси от электрической сети
Отключение блоков питания как контроллерного шасси, так и дисковой полки не привело к недоступности данных или выключению дискового массива, а встроенная система мониторинга отработала штатно.
Китайский массив в бою: наши выводы
Массив продемонстрировал хорошие показатели производительности и низкое время отклика при смешанных типах нагрузки (FC, SSD), где в основном преобладает чтение. Например, для профилей 70/30 с двух серверов удалось получить более 200k IOPS, 1600 MB/sec при времени отклика 0,47 мс, что, на наш взгляд, вполне достойный результат.
На более «тяжелых» профилях нагрузки с большим блоком (более 64к) мы столкнулись с ограничениями в виде количества подключенных путей со стороны хостов (4 линка по 16 Г) и выжали максимум — 3,2 ГБ/сек.
Даже на таких профилях нагрузки процессоры самого массива не были загружены более чем на 10–15%, что говорит о высоком потенциале.
Несмотря на ограничения тестового стенда, дисковый массив показал высокую надежность и отказоустойчивость. Просадки, хотя и ожидаемые, не были критичными (до 25–30%), и массив продолжал обеспечивать доступ к данным.
Основные проверки по выходу из строя портов, карт ввода/вывода SAS и FC, перезагрузке/выключению одного из контроллеров были выполнены успешно.
По результатам тестов производительности максимальные показатели дискового массива не были достигнуты из-за ряда ограничений тестового окружения — недостаточного количества дисков, серверов и портов ввода/вывода. Но даже в этих условиях массив продемонстрировал высокую производительность (более 150k IOPS) и стабильно низкое время отклика при практически всех случайных нагрузках.
Вот наши первые впечатления. Массив показал себя неплохо! Вполне себе на уровне конкурентов, но все же ближе к Dorado 5-6kv6. И как бы мы ни пытались найти к чему придраться, с ходу найти этого не получилось. Честно не знаем, что плохого сказать про массив!
А, нет, знаем. Нам очень не хватало дискового массива у нас на площадке, чтобы можно было провести распаковку и внимательно рассмотреть все компоненты и качество сборки. Это тоже важно! Еще не хватало документации в открытом доступе. Мы, конечно, в первую очередь практики, но без теории никуда. Вендор при этом максимально шел нам навстречу и предоставил оборудование, документацию и специалистов в поддержку. Уверены, что в продуктивном внедрении все будет еще лучше.
Продолжение следует…