Как стать автором
Обновить

Скорая помощь для СХД: как работает поддержка Huawei

Время на прочтение7 мин
Количество просмотров17K
Привет, Хабр! Меня зовут Елизавета Тишина (@intercoolersha), я работаю сервисным инженером в департаменте профессионального сервиса Huawei. Я лечу системы хранения данных (СХД) уже пять лет: начинала с обычной техподдержки, а теперь выбрала путь сервисного инженера. Сейчас я занимаюсь тестированием оборудования перед поставкой заказчикам, пусконаладочными работами, обновляю СХД после ввода в эксплуатацию и выполняю сервисные задачи (миграция, комплексная проактивная поддержка систем заказчиков и т. д.).

В этой статье я хочу рассказать о том, с какими типовыми проблемами я постоянно сталкиваюсь, и показать, какими инструментами пользуюсь, когда работаю со своими СХД. А ещё вы узнаете, какие из этих инструментов полностью открыты для наших клиентов — как будущих, так и настоящих.

Чем болеют СХД

Профессиональные СХД — как правило, надёжные машины. И становятся всё совершеннее от поколения к поколению. Но есть три универсальные болезни, которым подвержены все СХД:
  1. Проблемы с ОС и софтом. Тут всё просто: программные баги и новые уязвимости фиксятся обновлениями, и наша задача — проследить, чтобы заказчики ставили их вовремя. Основная сложность тут в том, что установка обновлений требует перезагрузки. К счастью, современные СХД обладают микросервисной архитектурой, поэтому перезагрузка контроллера происходит только при обновлении ядра операционной системы, то есть редко.

  2. Замена компонентов. К сожалению, ничто не вечно. Чаще всего, конечно, летят диски, и мы уже привыкли относиться к ним как к расходникам, тем более что системы резервирования позволяют не замечать потери бойца. Но иногда необходимо заменить и какую-то часть самой СХД. Хранилища имеют модульную структуру, так что замена не будет проблемой: бо́льшую часть компонентов клиенты могут поменять сами. И только на отдельные особо критичные компоненты вызывается сервисный инженер.

  3. Проблемы с производительностью. Вот это, пожалуй, одна из самых сложных и интересных задач: рано или поздно клиенты упираются в потолок производительности. Наша задача заключается в том, чтобы проанализировать телеметрию, обнаружить узкое горлышко и предложить клиенту варианты решения проблемы или сообщить о необходимости расширения. Довольно часто можно оставить старое железо, обновив только его часть. Но иногда приходится ставить крест на прежней системе и предлагать что-то новое. На сегодня топовой СХД является OceanStor Dorado V6: с ней наши клиенты долгое время не будут иметь проблем с производительностью. Но даже таким навороченным системам нужны внимание и забота.

Первая помощь

Первая линия техподдержки находится в России и ведёт общение с клиентами на русском языке. Если локальные инженеры поддержки не могут справиться с вопросом, то он передаётся на вторую и третью линии, дислоцированные в Китае. Напрямую клиенты общаются только с первой линией, а вторая и третья — это уже наша внутренняя переписка.
Это я :) Стою на страже работоспособности ваших СХД
У нас существует четыре вида приоритетов задач:
  • П4: консультационные вопросы;
  • П3: есть небольшое влияние на сервисы заказчика;
  • П2: страдает часть клиентов — они не имеют доступа к ряду сервисов (всё бросаем и бежим решать проблему);
  • П1: ничего не работает (тут бросаем вообще всё и работаем как на пожаре).
Из забавного: я знаю, как многие не любят советы от техподдержки в духе «перезагрузите устройство» или «давайте ещё раз пройдёмся по инструкции». Однако мой опыт показывает, что около 30 % всех проблем — это именно «включи/выключи», «обнови прошивку» и «прочти наконец инструкцию». Как говорится, все мы люди, и совет RTFM актуален во все времена. Ещё 40 % — это замена компонентов.
Некоторые случаи запоминаются надолго. К примеру, у нас как-то был тикет по замене контроллера в СХД. Обычно используется как минимум два контроллера, и к обоим подключаются линки на фронтенд. А тут по телеметрии было видно, что один из контроллеров неживой. Я приехала и уже на месте увидела, что клиент подключил линки только на один контроллер. Второй он собирался подключить, если откажет первый. Вот такой холодный резерв. Сколько времени ушло бы на подключение запасного контроллера в случае сбоя основного, клиент даже не задумывался.
Провода в серверной шли по стене красочными гроздями, вдобавок серверная в целом была очень маленькой. К счастью, и я не то чтобы большая. Я умудрилась протиснуться к контроллерам сзади и вручную подключить второй, якобы резервный, и после всех сопутствующих манипуляций произвести замену контроллера. С тех пор я отлично играю в твистер и смогу пройти коридор с лазерными лучами.

Лекарства для СХД

Как я уже говорила, 70 % обращений — это проблемы, которые решаются простыми действиями. А вот над оставшимися 30 % приходится попотеть. Поэтому мы развиваем собственные инструменты помощи. К примеру, если мы понимаем, что клиент упёрся в потолок производительности, то запрашиваем так называемый Performance Log, загружаем его в наш внутренний софт и получаем визуализацию нагрузки на отдельные компоненты.
Наша внутренняя утилита, с помощью которой мы смотрим, как загружены разные элементы СХД
Гораздо более интересным инструментом является наш InfoCenter — большой справочный инструмент для работы с устройством на всём его жизненном пути. К слову, этот инструмент доступен для всех желающих.
В верхнем меню можно выбрать раздел Component и разложить СХД на комплектующие.
Для чего он нужен?
Во-первых, инфоцентр может использоваться для планирования. В нём описывается вся спецификация оборудования. Плюс там можно повертеть железку в 3D и рассмотреть её в мельчайших подробностях.
Чтобы попасть в 3D режим нужно выбрать тип СХД и нужную модель. Справа можно выбрать, какие комплектующие отображать
Во-вторых, после покупки оборудования инфоцентр можно использовать для монтажа. В этом помогает утилита Network Assistant. Я сама активно ей пользуюсь во время сложных пусконаладочных работ.
Пример подбора схемы монтажа
Сама схема монтажа
В-третьих, инфоцентр можно использовать для сопровождения. К примеру, посмотреть, когда у актуального железа заканчивается поддержка, или найти информацию по запчастям и компонентам.

Пример лечения инфоцентром

Сейчас я покажу на примере, как пользуюсь инфоцентром во время своей работы. Вот недавний случай: у клиента возникли проблемы при расширении имеющейся СХД.
Что случилось: заказчик смонтировал дисковую полку в стойку и скоммутировал бэкенд, то есть подключил его к контроллерной полке. По идее, после этого должны произойти, как минимум, два события:
а) диски появляются в пуле доступных для использования;

б) в графическом интерфейсе отображается сама дисковая полка.
Но ни того, ни другого не произошло, и заказчик позвал нас.
Теоретически у такой проблемы может быть несколько причин. Самая простая (с чего и начали копать) — это отсутствие совместимости. Причём несовместимость может быть как между контроллерной и дисковой полками, так и между дисковой полкой и текущей прошивкой на голове массива. По идее, оборудование с очень старой прошивкой может не распознать свежую дисковую полку, но обычно такие риски снимаются при планировании закупки расширения на СХД. Мы очень внимательно следим за такими вещами и ещё на этапе пресейла предупреждаем заказчика о необходимости обновления. Тут же всё было чётко: у заказчика было современное оборудование, и проблема совместимости вроде как отпадала.
Могли быть и проблемы на физическом уровне: отказ сразу двух SAS-кабелей или обеих интерфейсных плат со стороны дисковой полки. Но такое случается очень редко; именно для этого и существует резервирование компонентов. Поэтому всё-таки было решено вернуться к проверке совместимости.
Классический способ решения проблемы — сбор логов и их анализ. Но это занимает время, поэтому для начала я запросила у клиента парт-номера контроллерной и дисковой полок. Для оперативной проверки совместимости, поиска описания и картинки компонента в пару кликов использовался инструмент инфоцентра Spare Parts Query.
Проверка парт-номера — один из основных приёмов, с которого в большинстве случаев и начинается решение проблемы
Проверяем парт-номера — и видим, что используемые дисковые и контроллерные полки разных, несовместимых между собой поколений. Вот это поворот!
Мы любим наших клиентов и поэтому сделали так, чтобы у заказчиков был доступ к нескольким удобным инструментам по работе с СХД. Для той же Dorado V6 в инфоцентре есть полный набор документации, схем монтажа и ещё множество полезных утилит. Выше я постаралась показать, как инфоцентр позволяет клиенту находить информацию и решать проблемы. А если проблем нет у клиента, их нет и у меня :)

Доступное самолечение для СХД

Вообще, я уверена, что сервисная служба не должна менять каждый болтик. Как говорят сейлы, новые клиенты боятся, что после покупки СХД придётся вызывать инженера на каждый чих. И платить, платить, платить… У нас всё устроено не так: создан целый раздел с операциями, которые клиент может сделать самостоятельно. Мы же появляемся только в сложных или запутанных случаях, когда инженеры заказчика не могут справиться сами.
Дело в том, что у многих заказчиков планирование обновления — процесс длительный, и в хозяйстве может иметься несколько СХД разных поколений. Так и в нашем случае: выяснилось, что контроллерная полка правильного поколения у заказчика также имеется, но из-за недопонимания между различными командами компании возникла путаница. И новую дисковую полку просто привинтили куда удобнее.
В результате всё закончилось хорошо и быстро: полку перемонтировали в другую стойку, и успешно провели расширение.
Ну и последнее. Пользуясь тем, что этот пост появится на Хабре в канун Нового года, хочу произнести наш традиционный внутренний тост: стабильного и надёжного, как скала, оборудования и понимающих, увлечённых своим делом коллег! Пусть случится новогодняя магия!
Теги:
Хабы:
+33
Комментарии17