Цикл статей «NetRack Guards: на страже клиентской ИТ-инфраструктуры»: история о человеке, который знает все
Вы когда-нибудь задавались вопросом, как работает Ваша сервисная компания? Задумывались ли Вы о тех, кто обеспечивает постоянную работу инфраструктуры и услуг с «физической» точки зрения? Мы решили поделиться своим опытом в этом вопросе и рассказать о том, как и за счет чего мы обеспечиваем бесперебойность и качество работы наших услуг. Наша компания предоставляет широкий спектр услуг от аренды и размещения оборудования в ЦОДе до портов доступа в интернет. NetRack существует на российском рынке с 2011 года и обслуживает HighLoad клиентов: банки, СМИ, ТВ компании, игровые онлайн компании, платежные системы. Нашими партнерами являются самые надежные дата-центры Москвы: StoreData, IXcellerate, SafeData, ММТС-9. На примере одного из них – дата-центра StoreData – мы расскажем Вам, каким же образом и чьими усилиями достигается непрерывность работы предоставляемой нами ИТ-инфраструктуры для наших клиентов.
Первый герой нашего исторического цикла о закулисной жизни сервисной компании NetRack и ее дата-центра — человек, который всегда держит руку на пульсе, а телефон — всегда включенным. Человек, который знает все о каждом элементе инженерных систем своего ЦОДа и о том, как сделать так, чтобы все работало без сбоев.
Дежурная служба никогда не спит. Дежурная служба работает в режиме дата-центра: 24 часа в сутки семь дней в неделю 365 дней в году. У них работа такая: следить за каждым из девяти больших мониторов и несколькими маленькими, что висят по периметру их небольшой комнаты. Казалось бы, не самая сложная работа для молодых ребят, которые еще студенты или только окончили вуз. Однако дежурная служба — связующее звено между инженерами, работающими в ЦОД, и компаниями, размещающими в ЦОД свое оборудование.
ЦОД StoreData, 09:00
— Сань, ты ИБП в итоге проверил? — худощавый блондин откидывается на стуле, встречая только что вернувшегося с очередного обхода коллегу. Буквально незадолго до этого один из мониторов показал нестабильное входное напряжение в источниках бесперебойного питания. К приходу начальства не хотелось бы сообщать об авариях в его смену.
— Да, вроде все нормально, но я еще Константину все равно передам…
— Передашь мне что? — раздался негромкий голос. — Доброе утро, ребят!
В комнату дежурной службы c доброй улыбкой заходит мужчина крепкого телосложения, ростом выше среднего, в яркой клетчатой рубашке и джинсах. Пока дежурный Александр рассказывает вошедшему про недавний скачок напряжения, улыбка сменяется серьезным выражением лица. Таинственный Константин выдыхает, явно что-то отмечая про себя.
— Хорошо, я сейчас посмотрю. Наверняка ничего страшного, но хорошо, что сказал, — улыбка вновь возвращается, Константин направляется в первый модуль ЦОДа StoreData.
Мужчина в яркой клетчатой рубашке и джинсах — Константин Еремин, главный инженер компании StoreData. Его рабочий день начинается в девять утра, и первым делом он получает отчет от дежурной службы о состоянии работы оборудования дата-центра в его нерабочее время. Это одна из основных обязанностей главного инженера: знать, что происходит в ЦОДе, даже если он в отпуске, заболел или находится вне офиса. Ну и, естественно, главный инженер отвечает за то, чтобы ЦОД работал бесперебойно. Ведь от бесперебойности работы дата-центра зависит бесперебойность работы компаний, которые в нем арендуют оборудование.
Пообщавшись с дежурной службой и просмотрев их записи, чтобы окончательно убедиться, что, кроме скачка напряжения, больше ничего не произошло, главный инженер должен проверить работу оборудования каждого модуля. Константин совершает такой обход два раза в день: утром и вечером. Первое, что подлежит проверке, — температура. В горячем коридоре — порядка плюс 28°C, в холодном — 18-20°C. Кроме этого, необходимо обязательно проверить уровень влажности в помещении. Далее — мониторинг ГРЩ. Индикация вводов показывает их наличие и исправность, входные параметры сети в норме — Константин одобрительно кивает и продолжает осмотр оборудования.
Следующий этап — электрическая часть. Все рубильники подняты, автоматика исправна, нагрузки проверены. Работают два городских ввода, что означает: дата-центр функционирует в штатном режиме от городской электросети.
Дальше — проверка ИБП. В первую очередь Константин смотрит записи в меню на дисплее: «Выход», «Нагрузка», «Система», «Батареи» и «Журнал». В каждом меню свои данные и свои настройки. К примеру, в «Журнале» фиксируются все внештатные ситуации. «Вот и скачок напряжения», — проговаривает для себя главный инженер. Действительно, ничего страшного не случилось: просто в какой-то момент сетевое напряжение вышло за пределы своих параметров, а дежурная служба получила сигнал о нестабильности входного напряжения. Однако сотрудники «дежурки» уже не первый год работают в ЦОДе и спокойно действуют в рамках разработанных регламентов.
Так, например, в случае возникновения внештатной ситуации, дежурные в первую очередь сообщают о ней своему начальнику и Константину. Телефон главного инженера всегда включен — Константин всегда на связи, ведь ему могут позвонить в любой момент, даже ночью. Ситуации бывают разные: повышение температуры; несинхронизация вводов или незначительные отклонения от эталонных параметров сети, также влияют работы в МОЭСКе (Московская объединенная электросетевая компания), когда там, к примеру, переключают или ремонтируют оборудование.
В модуле Константину остается только проверить заряд батарей и нагрузку, после чего он удостоверяется в исправной работе противопожарного оборудования и системы газового пожаротушения. Стоит отметить особую систему раннего предупреждения и обнаружения возгорания: воздух постоянно отбирается для анализа на присутствие продуктов горения и дыма. В случае их обнаружения, датчик в системе газоанализатора распознает задымление даже на самых ранних стадиях, о чем немедленно оповещает дежурную службу. Далее главный инженер идет по техническому коридору «саркофага» — так Еремин называет модуль за его вторую крышу и стены. Остается проверить уровень давления в баллонах газового пожаротушения, а потом пройти по тому же кругу во второй модуль — StoreData_Eco. Константин проводит те же манипуляции, но уже быстрее: во втором модуле оборудования и нагрузки меньше, поэтому процесс проверки не занимает много времени.
Третий на очереди в утреннем обходе — ЦОД StoreData_lite, который еще только готовится к тому, чтобы принять новых клиентов NetRack. Здесь Константин практически не задерживается, так как модуль работает в тестовом режиме, затем спускается к дизель-генераторам.
На внутренней территории дата-центра StoreData находятся два дизель-генератора: один мощностью 1250 КВт, второй — 450 КВт. Константин осматривает их с особой тщательностью и трепетом, как будто это его собственные машины в личном гараже.
Он проверяет мотор на предмет внешних неисправностей, состояние внутренних параметров по мониторингу. Отдельная история — температура. Она должна быть не менее 32°C, потому что они находятся в горячем резерве. Кроме того, главный инженер проверяет аккумуляторы и наличие топлива в баке. Особое внимание он уделяет чистоте ДГУ: не должно быть никаких подтеков, смазки или тосола, ведь любая лишняя капля может повлиять на работу всего генератора. Последний взгляд — на монитор, контролирующий работу дизель-генератора: все параметры в норме, горит желтый индикатор, говорящий о том, что ДГУ включен и готов к работе.
Как в ДГУ, так и в каждом модуле лежат журналы с записями о каждом обходе дежурной службы. Так как такие обходы совершаются несколько раз за день, Константин внимательно их изучает, а потом со спокойной душой идет в офис: обход окончен — можно заняться текущими делами.
А таких дел у главного инженера достаточно. Для начала он предпочитает ознакомиться с перепиской дежурной службы с клиентами, чтобы окончательно удостовериться, что в его отсутствие действительно не произошло никаких внештатных ситуаций. Иногда Константину приходится самому общаться с заказчиками, но это происходит только в том случае, когда вопросы клиентов выходят за границы компетенций специалистов дежурной службы. В целом общение с клиентами для него ограничивается первым визитом заказчика, когда главный инженер выслушивает все его пожелания по техническому оснащению, к примеру, сколько необходимо розеток, где должно располагаться оборудование и т. д.
В более тесном контакте главный инженер находится с подрядчиками, которые регулярно проводят регламентные работы по обслуживанию ИБП, систем кондиционирования и электроснабжения и ДГУ.
Как говорит Константин, одна из его задач — постоянная модернизация. Это касается всего оборудования в ЦОДе, вплоть до полной замены люминесцентного освещения на светодиодное или замены всех батарей из-за износа.
«Еще я связываю всех вместе, чтобы все работало, как один механизм», — рассказал Константин. Он имеет в виду своих подчиненных: инженеров более узкого профиля и сотрудников подрядных служб, которые проводят технические обслуживания и регламентные работы. Своего отдельного кабинета у Константина нет: он сидит в комнате вместе с другими инженерами и техническим директором, процесс взаимодействия и контроля происходит непрерывно. На дальней стене висит большая плазменная панель, который передает общие данные мониторинга модулей дата-центра, таким образом все заинтересованные лица в курсе того, что происходит в ЦОДе. Обстановка иногда шумная, а иногда, наоборот, чересчур спокойная: либо все о чем-то говорят по телефону, либо заняты какой-то бумажной работой. Однако Константин не считает это рутиной: как он сам говорит, главное — ты самостоятельно за всем наблюдаешь, а где надо, можно и руками поработать.
Пока суть да дело, подходит время обеда — то время, когда можно немного расслабиться и обсудить вещи, не связанные с работой. Константин, например, делится впечатлениями от последнего посещения Царской пасеки в Измайловском парке. Да, главный инженер компании StoreData вырос в семье строителей, но часть детства провел на пасеке, на Алтае, а в столице нашел место, где смог вернуться к увлечению детства. Измайловский парк не просто дает возможность вспомнить детство, но и закрепить те знания, что Константин когда-то получил: на территории этой пасеки он вместе с инженером по холодильному оборудованию Евгением ухаживает за пчелами.
Но работа не ждет: наступает время вечернего обхода. Он ничем не отличается от утреннего, разве что при возникновении какой-то ошибки или при сбое в работе оборудования главному инженеру придется остаться до момента устранения неполадки, даже если это будет гораздо позже времени окончания рабочего дня. Кстати, такие обходы — не единственный случай, когда Константин проверяет стабильность функционирования оборудования. Раз в две недели проводится плановая проверка дизель-генераторов на холостом ходу: проверяются выходные параметры, напряжение на выходе, уровень топлива и состояние мотора. Кроме этого, два раза в год проверке подвергаются все системы ЦОДа. Моделируется аварийная ситуация: инженеры имитируют пропадание одного из вводов и обоих сразу, то есть полное отключение от городского электроснабжения, и следят за тем, как «отработает» оборудование. Клиенты об этом всегда предупреждены заранее, согласно регламенту. Однако топология инженерной инфраструктуры дата-центра позволяет проводить такие работы без остановки предоставления сервиса клиентам — за два года работы Константина Еремина в StoreData проблем, приведших к авариям в ЦОДе, не возникало, а заказчики во время таких проверок еще ни разу не жаловались на сбои в работе дата-центра.
На вопросы о личном времени и хобби Константин немного умалчивает: вспоминает лишь не без ностальгии о детстве, когда был членом юниорской сборной Казахстана по гандболу. «Но потом была травма, которая мне мягко намекнула, что со спортом пора заканчивать», — с улыбкой, пусть и немного грустной, говорит главный инженер.
После обхода Константин еще раз проверит журналы дежурной службы, убедится, что все системы в порядке и вся необходимая работа выполнена, после чего отправится домой, чтобы на следующий день снова в девять утра с улыбкой поприветствовать ребят из дежурной службы и отправиться осматривать ЦОД. Ведь только под внимательным и постоянным контролем главного инженера оборудование дата-центра будет работать без сбоев 24 часа в сутки семь дней в неделю 365 дней в году. А пока работает дата-центр StoreData, пользователи компании NetRack получают бесперебойное качество сервиса предоставляемых услуг.