Как стать автором
Обновить
75.97
Рунити
Домены, хостинг, серверы, облака

Один день инженера ЦОД: работа, которой не видно, но без которой ничего не работает

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.3K

Привет, Хабр! Меня зовут Анатолий Усов, я инженер дата-центра Рег.ру. В этой статье расскажу, чем обычно занимается инженер в ЦОДе в течение смены, с какими сложностями сталкиваемся и как устроена работа внутри нашего дата-центра.

Навигация по тексту:

Как я оказался в дата-центре

С техникой я на «ты» с детства — всегда хотелось разбираться, как всё устроено и работает. Но путь в дата-центр оказался скорее случайным: искал работу и откликнулся на несколько заинтересовавших меня вакансий. Одна из них была — инженер ЦОД Рег.ру. Честно говоря, тогда слабо представлял, что такое ЦОД. Но меня привлекла возможность не просто «сидеть за компьютером», а работать с железом руками — на месте, напрямую.

За работой
За работой

Наш дата-центр находится в Москве, на территории ОЭЗ «Технополис». Это первый собственный ЦОД компании. Площадь — 600 м², 180 стоек. Технически он соответствует уровню Tier III, это означает аптайм в 99.982% в год, что дает не более ~1,5 часов недоступности в год. Проще говоря: если вдруг выйдет из строя любой элемент — питание, охлаждение — оборудование продолжит работать, и клиент ничего не заметит. 

Кроме «железа», в нашем ЦОД есть и немного человеческого: например, на одной из стен — огромное граффити. Так что духа стерильной серверной без лица у нас точно нет, хотя всё, конечно, соответствует требуемым нормам.

Граффити в ЦОД появилось в 2021 году. С того момента логотип Рег.ру обновили, но граффити оставили — оно продолжает радовать
Граффити в ЦОД появилось в 2021 году. С того момента логотип Рег.ру обновили, но граффити оставили — оно продолжает радовать

При этом мы не только обеспечиваем аптайм, но и круглосуточную поддержку: техническую, физическую, сетевую. В дата-центре работают:

  • Инженеры по эксплуатации электрооборудования и систем охлаждения — отвечают за электропитание и климат.

  • Инженеры дежурных смен — те, кто круглосуточно обеспечивает работоспособность серверного и сетевого оборудования в ЦОД.

  • Инженеры-конфигураторы — специалисты, которые комплектуют, собирают и тестируют оборудование перед выдачей или установкой в стойку.

Также есть ведущий инженер — он работает 5/2, курирует выполнение задач, контролирует процессы, отвечает за документацию и прочие организационные моменты. Работаем мы посуточно, в смене всегда минимум два инженера.

Что входит в обязанности дежурного инженера

Наша задача — обеспечивать бесперебойную работу оборудования и инженерных систем, а также оперативно реагировать на любые инциденты. Сюда входит:

  • периодический осмотр и контроль параметров инженерных систем;

  • обработка заявок от клиентов (монтаж, замена комплектующих, подключение KVM и многое другое);

  • физическая работа с серверами — от сборки и замены модулей до базовых настроек;

  • круглосуточная помощь клиентам — и днем, и глубокой ночью независимо от времени.

Важно: у нас нет «режима ожидания утра». Если пришла ночная заявка — она будет выполнена сразу, а не «когда менеджер выйдет на работу». Это и есть суть 24/7, которой мы придерживаемся.

ЦОД — это не просто площадка с железом, это — гарантии. Гарантии бесперебойного электропитания, что обеспечивается дублированием систем; гарантии необходимого охлаждения оборудования, что обеспечивается системой кондиционеров и изоляцией холодных коридоров гермозон; гарантии непрерывного доступа по сети, что обеспечивается дублированием систем и сетевого оборудования; и гарантией безопасности, достигаемой ограничением доступа как в сам ЦОД, так и непосредственно к оборудованию, а также использованием автоматических систем мониторинга, сигнализации и пожаротушения.

Как проходит мой рабочий день

Смена начинается с обхода всех систем и помещений. Рабочий день начинается в 10:00 ч. Принимая смену, проверяем параметры инженерных систем ЦОД, а также температуру и влажность в машзале, состояние оборудования. Важную информацию фиксируем в журнал приема-передачи: были ли инциденты, аварии, отклоняющиеся от нормы показатели инженерных систем, нестандартные обращения, неотработанные тикеты.

Параллельно один из дежурных проводит анализ текущих заявок и запланированных задач, которые передала предыдущая смена. Старший инженер распределяет приоритеты задач: что критично, что можно запланировать на ночное время, а где требуется участие коллег из смежных подразделений.

Типичный день может включать:

  • монтаж серверов для новых клиентов и их коммутации;

  • замены дисков, контроллеров, модулей памяти;

  • подключение внешних накопителей или KVM для установки образов;

  • конфигурацию кластеров и стоек;

  • диагностику неисправностей.

Иногда задачи идут валом — тогда главное не потеряться и быстро расставить приоритеты. А реакция на инциденты должна быть мгновенной: время простоя критично для клиентов.

Сборка кластера под клиента

Например, в 10:00 ч. начинаем сборку — крупный клиент заказал кластер из пяти серверов под виртуализацию. Срок, как всегда, сжатый: всё оборудование уже лежит на складе, техподдержка ждет, когда можно будет разворачивать гипервизор и поднимать сеть.

Наша задача — всё сделать максимально быстро и точно:

  • проверить конфигурации;

  • запланировать место установки и смонтировать в стойку;

  • подключить питание и сеть (по резервированным линиям);

  • промаркировать и задокументировать всё в системе учета.

Работаем в паре с другим инженером: один размечает оборудование, второй — уже начинает монтаж. Подключаем по 2 канала питания (у нас всё резервируется), один — в основную PDU, второй — в резервную. Дальше — подключение к сети. Еще на этапе планирования установки проверяем, что свободные порты в коммутаторе есть, напряжение по стойке не превышено, всё подписано. Параллельно настраиваем IPMI, чтобы удаленные админы могли уже подключаться, пока мы заканчиваем монтаж.

На всё — около трех часов. Успеваем сдать инфраструктуру до обеда. Клиент доволен, пишет в тикете: «Спасибо, включили KVM, ставим гипервизор». Можно спокойно заниматься текучкой.

Типичные задачи

Инженер ЦОД редко работает с одной задачей последовательно. Это не линейный процесс, а постоянное переключение между разными по характеру и срочности задачами. 

Например, после обеда приходит тикет — клиент арендует 10 хостов, и решил сократить парк до 8. Казалось бы, просто? На практике — не совсем. Мы не знаем, какие именно хосты нужно демонтировать — это не два последних в ряду, а, например, 2 и 7. Их нужно аккуратно извлечь из стойки, раскоммутировать, отключить питание и при этом не задеть соседние машины, чтобы не прервать работу остальных 8 серверов.

Параллельно в техподдержку поступает новая срочная заявка: в облаке нужно экстренно добавить диск на виртуальную машину для клиента, у которого запущена рекламная кампания. Это значит — нужно отложить демонтаж, быстро подключиться к инфраструктуре, выполнить операцию и только потом вернуться к первой задаче.

И так — несколько раз за смену. Важно не просто уметь работать в многозадачном режиме, а уметь быстро переключаться между задачами разного типа:

  • делаешь кроссировку;

  • работаешь через IPMI и подгружаешь образ системы;

  • берешь отвертку и лезешь в стойку, чтобы заменить планку памяти.

Надо помнить, на чем остановился, что еще не доделал, какие зависимости у задачи и к какому времени ее нужно закрыть. 

Иногда может показаться, что работа инженера ЦОД — это тренажер по стрессоустойчивости, внимательности и гибкому мышлению. И всё это — в реальном времени.

Сложные сетапы и нестандартные задачи

В некоторые смены приходится погружаться глубже. Бывает, что клиент присылает очень специфическую конфигурацию: нестандартный лоад-балансер, кастомная схема маршрутизации или несколько VLAN на один линк. Подобные задачи могут не укладываться в один день. 

Например, недавно мы работали над крупным проектом — сборка кластера из 10 серверов в сжатые сроки. За этими цифрами стоит реальность:

  • гипервизоры с нетипичными конфигурациями;

  • дополнительные сетевые карты под 25G;

  • отдельные хранилища (SDS или SHD);

  • до восьми коммутаторов на стойку;

  • у каждого сервера по одной коммутации на каждый из восьми свитчей;

  • всего 80 коммутаций только на один кластер.

И всё это в ограниченном пространстве стойки. Оптика, медь, патч-корды, изгибы, длина, порядок укладки кабелей. Визуальный порядок тоже важен: с одной стороны — требования компании, с другой — требования здравого смысла и удобства эксплуатации.

Кабели не должны перекрывать вентиляционные отверстия оборудования, иначе нарушается охлаждение. Обслуживание должно оставаться возможным: если один провод нужно заменить — не должен сыпаться весь пучок. В режиме высокой загрузки приходится решать задачи уровня проекта, не отвлекаясь от повседневной операционки.

И таких задач в ЦОД может быть сразу несколько: сегодня мы собираем кластер, завтра — запускаем облако для стороннего дата-центра в других стоечных зонах. Это не работа двух дежурных — это симфония из десятков задач, которые синхронизируют разные отделы и команды. В общем, всегда появляется что-то интересное!

Рабочие моменты: обход ЦОД
Рабочие моменты: обход ЦОД

Обходы и регламентные процедуры

Ближе к вечеру — обход ЦОД. Мы проводим регулярный визуальный осмотр:

  • проверяем ИБП, кондиционирование, системы пожаротушения;

  • смотрим, нет ли срабатываний сигнализаций или отклонений по датчикам;

  • сверяем показания мультиметров, термопар, влажности.

Да, вся эта информация и так идет в мониторинг, но живой обход никто не отменял: иногда нюансы видны только на месте. Например, чуть более шумный блок питания может быть предвестником скорого выхода из строя — а датчики пока «молчат».

Также проверяю стойки с критичными клиентами: те, у которых SLA 99.982%, резервирование по схеме N+1. Убедился, что всё стабильно, и возвращаюсь в дежурную. За день — 15 тикетов, из них 12 решены, 3 на контроле, делаю отметки в тикет-системе.

Рабочий день завершен, но рабочая смена продолжается, ведь впереди еще целая ночь, а клиенты работают из разных часовых поясов и заявки не прекращают поступать.

___

Если есть вопросы по работе в ЦОДе, задачам инженеров или нюансам сетевой инфраструктуры — пишите в комментарии, буду рад обсудить.

Теги:
Хабы:
+3
Комментарии2

Публикации

Информация

Сайт
runity.ru
Дата регистрации
Численность
501–1 000 человек
Местоположение
Россия
Представитель
Рунити