Представьте, что у вас сломался сервер. Чтобы быстро починить его, сервисные инженеры должны легко добраться до внутренних компонентов, понять, что именно сломалось, и заменить или отремонтировать неисправную деталь. Если процесс ремонта простой, понятный и быстрый, это значит, что у продукта продуманный сервисный дизайн и он соответствует критериям serviceability.
Serviceability — это способность продукта или системы быть обслуживаемыми, то есть их ремонт, техническое обслуживание или обновление можно выполнить легко. Подробнее про это понятие мы уже писали — ссылку найдете в конце статьи. Я, Александр Чуриков, технический эксперт по продукту в YADRO, расскажу на реальных примерах, что делает сервер удобным для обслуживания и как инженеры обеспечивают быстрое и безошибочное восстановление работы систем.
Наша компания поставила оборудование с дисковым пространством объемом 4 эксабайта, что соответствует примерно 400 тысячам жестких дисков по 10 терабайт каждый. Примерно треть замен дисков выполняют наши клиенты самостоятельно, а две трети производят наши инженеры на выездах. Поскольку первый вариант быстрее (не нужно ждать специалиста), мы стремимся, чтобы у клиентов было больше опций в самостоятельном обслуживании систем.
Сервисное обслуживание в YADRO организовано по стандартной схеме, принятой в большинстве технологических компаний:
Уровень L1 отвечает за выполнение обслуживания по готовым инструкциям и замену компонентов систем.
Уровень L2 решает более сложные проблемы, опираясь на базу знаний.
Уровень L3 выявляет первопричины сложных проблем, решением нестандартных случаев и написанием статей для базы знаний.
Руководители YADRO подошли к процессам обслуживания более системно и создали отдел сервисного дизайна, который занимается расширением функционала L3 — именно в этом отделе я и работаю. Ключевые задачи — формировать требования к продуктам в части их обслуживания и диагностики, разрабатывать эффективные сервисные процедуры.
Наша команда сервисного дизайна создала специальный фреймворк — своего рода чек-лист с более чем 200 пунктами. В документе описаны требования команды сервисного дизайна к разрабатываемым продуктам компании. Каждый пункт основан на опыте наших сервисных инженеров и реальных примерах. Когда мы разрабатываем новый продукт или развиваем существующий, менеджеры продукта наряду с функциональными требованиями используют наш фреймворк для выработок требований к сервисному обслуживанию.
Сегодня мы посмотрим на некоторые пункты фреймворка — интересные как для разработчиков, так и для клиентов.
Защитный экран для PCIe Switch
В системе TATLIN.ARCHIVE есть PCIe Switch — это такой «разветвитель» для PCIe-шины: одна линия входит, а семь выходят. Когда мы начали обслуживать эти устройства в полевых условиях и вытаскивать блок с PCIe Switch, столкнулись с проблемой — на нижней стороне платы терялись компоненты. Это изменение реализует одно из требований фреймворка к часто извлекаемым компонентам.
В лаборатории все работало без проблем, но в реальных условиях, когда к одному блоку подключено 60 кабелей (около 15 килограммов), он прогибался и задевал корпус.
Мы нашли решение — теперь устройства выпускаются с защитным экраном, который предотвратил эту проблему.
Не режем пальцы и кабели
Одно из требований, важных для обслуживания оборудования, — исключать острые края, чтобы не резаться. Когда вы поднимаете сервер весом 20 кг, его острые края становятся довольно ощутимыми. Опасны они и для кабелей: когда инженер задвигает полку с острой задней стенкой, он может случайно перерезать кабель. Потому что полка с дисками весит 130 кг, и когда ее задвигают в шкаф легко не заметить, что она уперлась во что-то.
Теперь, при создании металлических корпусов серверов мы не режем их, а многократно сгибаем, что позволяет получить гладкую и приятную на ощупь поверхность. Также добавилась фаска, которая препятствует повреждению элементов, находящихся рядом с дисковой полкой.
Решение без зацепов
Еще один важный момент: ничего не должно цепляться за стойки. Все замки на нашем оборудовании утоплены, а наклейки расположены так, чтобы не мешать задвижению оборудования в шкаф.
Наклейки на оборудовании
Почему наклейки с информацией так важны? Чтобы разобраться в обозначениях, не придется открывать ноутбук и изучать документацию. Это значительно упрощает процесс обслуживания.
На дисковых полках есть разметка с номерами слотов. Ранее сервисным инженерам приходилось наклонять голову, чтобы прочитать номера, — это неудобно. Тогда мы начали печатать цифры так, чтобы инженер мог увидеть их без лишних движений.
На серверах также много наклеек, которые показывают расположение блока питания, оперативной памяти, процессора и других внутренних элементов.
Четкая и ясная маркировка на серверах VEGMAN G2 позволяет легко устанавливать внутренние элементы с первого раза — например, плату расширения Riser или разъем. Компоненты помечены яркими синими метками, которые указывают, что их можно заменить только при выключении устройства. Riser «B» легко узнать благодаря яркой маркировке.
Легко разобрать и собрать
Один из главных критериев serviceability — все должно разбираться без использования инструментов. Когда мы разбираем ноутбук на хорошо освещенном монтажном столе, то все болтики будут на виду, и собрать его обратно проще.
Но если мы попытаемся открутить даже пару винтов в дата-центре, где шумно и часто темно, то они обязательно закатятся под пол или потеряются. Поэтому у нас есть одно требование: или оборудование разбирается без отвертки, или используются невыпадающие винты. Так, в TATLIN.UNIFIED все компоненты, вышедшие из строя, меняются без инструментов.
Есть несколько винтов, которые не выпадают, — они подпружинены и легко закручиваются благодаря насечке.
Маркировка кабелей
Рассмотрим задачу, которую мы решали несколько лет назад. У нас есть верхний кабель для интерфейсного порта BMC, к этому порту снаружи сервера подключают монитор и клавиатуру. Кабель присоединяется без ключа.
Кабель можно вставить вверх, вниз и даже перевернуть. В итоге есть шесть вариантов подключения, и лишь один правильный. При этом о неправильном подключении мы узнаем, только включив сервер — он не будет работать.
Кроме того, есть еще одна сложность с этим кабелем. Обычно в инструкции пишут: «Подключайте черный кабель к первому пину». Но проблема в том, что в этом шлейфе два черных кабеля, и непонятно, какой именно должен идти к первому пину. Чтобы разобраться, нужно изучить детально руководство. В нем было указано, что кабели нужно подключать сверху вниз: сначала черный, потом красный, затем зеленый. Было описано только словами, без визуализации.
Сейчас каждый комплекс сопровождается четкой и понятной схемой подключения.
Схема включает все разъемы, их маркировку и цвета проводов. Для каждого контроллера используются провода определенного цвета, что делает подключение интуитивно понятным. Разъемы на полках пронумерованы и, точно совпадают с обозначениями на схеме.
Это было большим достижением — обозначить питание для каждого шлейфа разными цветами.
Как поднять и не уронить полку
Все устройства, которые занимают 4U или больше, обязательно должны быть оснащены ручками. Это значительно облегчает работу, особенно когда нужно вытащить дисковую полку даже пустую — поддерживать 30-килограммовый объект снизу очень сложно.
Также у нас появилось правило: установка и демонтаж полки должны проводиться без установленных в нее дисков. Это связано с тем, что одна полка весит 30 кг, а с дисками 130 кг. При такой нагрузке ее сложно точно совмещать с направляющими рельсами.
На заре моей карьеры, когда я еще был сервисным инженером, многие вещи приходилось делать вручную. Например, обновлять прошивку экспандеров. Чтобы добраться до них, нужно было достать дисковую полку СХД из стойки, перевернуть ее и снять верхнюю крышку. Среди инженеров это трудозатратное действие в шутку называлось «почесать пузико». Потом эту прошивку начали делать прямо на производстве, и необходимость в процедуре отпала.
Инсталляция в стойку
Мы обнаружили интересную проблему с полками: они плохо вставляются в стойку.
Начали разбираться в причинах. У нас полка шириной 450 миллиметров — это максимально допустимая ширина для стойки. Однако эта конкретная стойка оказалась уже, чем положено, — всего 451 миллиметр. В итоге нам пришлось переставлять рельсы, чтобы оборудование встало правильно.
Большинство стоек, которые я видел, шире 451 миллиметра — возможно, нам встретился какой-то некорректный экземпляр. Но теперь, при подготовке площадки для установки, мы учитываем не только глубину рельсов направляющих стоек, но и ширину этих стоек.
Правильная индикация
Стереотипное представление центров обработки данных (ЦОД), которое можно встретить в фильмах или на фотостоках, обычно такое: оборудование мигает разноцветными огнями, как новогодняя елка.
В реальности такой «калейдоскоп» не нужен. Когда оборудование работает, оно должно светиться зеленым цветом. Есть даже специальная должность — инженер-обходчик, который следит за индикацией.
Если индикатор горит зеленым, значит, все в порядке. Если оранжевым или желтым, нужно сообщить об этом вышестоящему инженеру. Синий цвет, согласно стандарту VITA 40-2020, означает, что требуется обслуживание.
Однако некоторые вендоры, например, коллеги из Dell, используют синий цвет для индикатора нормальной работы сервера. Это приводит к путанице, поскольку яркие синие лампочки могут резать глаза и плохо видны в темноте. Мы ориентируемся на стандарт ANSI/VITA 40-2020, где указано, что означает каждый цвет и какая длина волны соответствует каждому сигналу. Например, синий цвет загорается, когда оборудование готово к обслуживанию, — это сигнал для инженера, что необходимо провести работы с конкретным сервером или дисковой полкой. В стандарте также описаны режимы индикации, когда оборудование в режиме ожидания или выключено, и частота загорания лампочек.
Обновление программного обеспечения
Системы хранения данных запускаются один раз после пуско-наладочных работ (ПНР), а потом работают непрерывно в течение всего срока эксплуатации. Поэтому все обновления должны проходить без отключения системы и потери доступа к данным — быстро и бесшовно.
Чтобы исключить непредвиденные ситуации в ходе обновления, мы перед процедурой проводим проверку системы по специально разработанным алгоритмам.
Во время обновления всегда работает хотя бы один контроллер, и клиент продолжает пользоваться данными без перебоев. Процесс апгрейда в СХД может быть непростым из-за последовательного обновления контроллеров. Подробнее про лучшие практики и алгоритм обновления уже писали.
Логирование
Вернемся в прошлое: 20 лет назад при настройке почты Exchange я устанавливал максимальное ограничение размера письма на 30 MБ. Спустя 20 лет эти значения все еще актуальны.
Идеально, если при возникновении проблемы клиент отправляет сообщение с приложенными логами. Если размер логов — 10 МБ, наш сервер быстро их обработает.
Но, если логи весят 50 ГБ, их загрузка может занять неделю. К этому времени проблема уже будет решаться другими способами, например, с помощью обновлений.
Мы установили требования к размеру логов: если они превышены, это рассматривается как ошибка программного обеспечения, и проблема эскалируется на решение разработчикам ПО.
Мониторинг состояния СХД
Мониторинг — это важный момент. С помощью него можно отслеживать состояние СХД и настроить систему оповещений о проблемах.
В TATLIN.UNIFIED встроена поддержка протоколов SNMP для систем мониторинга и SMTP для оповещения по email. Кроме того, чтобы проще интегрировать СХД в инфраструктуру клиента существуют шаблоны для распространенных систем мониторинга.
Например, в стандартной конфигурации пула 8+2, если выходит из строя один диск, клиент может этого не заметить, потому что данные все еще доступны. О поломке второго диска он тоже не узнает, если система мониторинга не настроена. А вот выход из строя третьего диска уже может привести к потере данных, что не останется незамеченным. И эту проблему можно было предотвратить, настроив мониторинг и alert-систему.
Хороший сервисный дизайн — это не только про удобство инженеров, но и про спокойствие пользователей оборудования. Важно, чтобы процесс обслуживания был продуман до мелочей, чтобы и у специалистов, и у клиентов не возникало лишних сложностей.
Подробнее о том, из кого состоит команда, отвечающая за сервисный дизайн в YADRO, и как она работает, читайте в этой статье.