Pull to refresh
100.36

Как мы перевозим дата-центры (сложности миграции ЦОДов в средней полосе)

Reading time7 min
Views33K

Результат переезда и объединения двух серверных и телекоммуникационной из офиса

Иногда нужно взять и перевезти дата-центр на новое место. Причины бывают самые разные. Например, переезд большого офиса вместе с ЦОДом внутри. Или сбор серверных крупной российской компании из регионов в Москву. Или вот весёлый случай — объединение банков, когда нужно совместить два дата-центра в один.

Я лично участвовал в 7 переездах, а наша команда перетащила уже точно свыше 30 больших объектов. Поэтому мы знаем толк в извращениях.

Переезд ИТ-оборудования отличается от классического переезда тем, что нельзя просто взять и перенести всё в другую точку за вечер субботы. Проблема в том, что ИТ-сервисы нужны круглосуточно и без простоев. Плюс масса нюансов по временной и новой сетевой инфраструктуре, по перевозке жёстких дисков в старых серверах и вытаскиванию двухтонных систем хранения данных краном из окон офиса, где после заезда поставили двери и постелили ковролин.

1. Большая подготовка


Сначала приходит заказчик и говорит: «Мне надо взять и переехать». Заказчик, как правило, — крупный бизнес, который уже перевозил офис или небольшую серверную. Поэтому в целом представляет масштаб и примерные очертания возможных проблем. Главное требование на этом этапе — сделать всё плавно, спокойно и без ситуаций, про которые потом будут рассказывать байки. То есть максимально скучно и предсказуемо.

Первый этап — согласование техтребований. Бывает по-разному: иногда заказчик просит нас сделать план переезда, иногда приносит готовый и просит проверить. Лучше всего пошло с одним европейским банком: он пришел с готовыми документами, но мы вносили правки и замечания, например, связанные с тем, что за одну итерацию лучше перевозить меньшее количество стоек (из-за необходимости смонтировать всё на принимающей площадке без «муравейника» из 10 инженеров). По опыту мы знаем, что 6 человек на монтаже — нормально, а 10 уже начинают мешать друг другу.

Результат первого этапа — схемы обоих ЦОДов до, после и «времянки» во время итераций переезда, точное понимание того, какое оборудование и как будет доставлено, точная коммутация для каждого этапа и список железа по серийникам, кто, когда и как едет. Вот пример объединения трех серверных в одну.

До:

Основная серверная комната на 7 этаже офиса


Телекоммуникационная комната на 7 этаже офиса


Серверная комната на 3 этаже офиса

После (вы уже видели эту схему сверху):


Если бывает даунтайм (иногда это возможно), он согласовывается, поэтому переезды планируются в выходные. Но вот, кстати, январские праздники при этом редко бывают для нас очень насыщенным в плане работ периодом.

2. Техподготовка


Потом мы начинаем готовиться технически. К третьему переезду понимаешь, что основные части работ делаются обычно без сбоев, но самое большое внимание нужно уделять мелочам. Например, забытая отвёртка с нужным форм-фактором — это простой минимум 15 минут, что крайне нежелательно. У нас есть огромный чек-лист оборудования типа скотча, маркеров, шуруповёртов и так далее.

Потом на складе откладываем запчасти для самых критичных железок. Да, тут надо сказать, что у нас очень большие сервисные склады, поэтому почти всем системам можно найти аналоги. Если после перевозки откажет жёсткий диск, блок питания или материнская плата (эти компоненты летят чаще всего), то сразу же со склада в течение часа подвезут ещё один точно такой же. Это особенно важно для заказчиков, везущих оборудование не на гарантии.

Результат этого этапа — всё с нашей стороны готово к реализации переезда.

3. Работа на площадках


Первая итерация начинается вечером до переезда на исходной площадке заказчика. С помощью этикет-принтера маркируется каждый кабель и каждый сервер, так чтобы они сразу правильно легли в нужную коммутацию на «той» стороне. Причём маркировка делается не «AS IS», а по плану уже новой коммутации, чтобы принимающие инженеры могли сразу собрать, как надо. Это важно, потому что из одной стойки текущей площадки оборудование вполне может расползтись по 5 стойкам новой площадки. Самая важная этикетка — номер стойки на новой площадке и юнит на новой, чтобы не держать оборудование в коридоре, а сразу ставить после распаковки: TIER III ЦОДы часто не допускают более 15 минут простоя оборудования в техкоридоре. Бывает, безопасникам тоже не нравится видеть оборудование не за своими загородками. Поэтому просто оно достаётся из коробки, вставляются рельсы, сразу монтируется.

Сильно заранее маркировку делать нельзя: в последний день вполне могут быть замены того, что едет, а что нет из-за предыдущей итерации и работы тех, кто занимается софтверной частью. А так — за два-три часа до переезда вполне хорошо этим заняться. Вечером отмаркировали, с утра разобрали, грузчики забирают.


Это хороший принтер, который мы используем для маркировки проводов. Лента самоклеящаяся, обрезается нажатием по бокам (серые кнопки), внутри есть ножи. Их надо иногда менять. Принтер программируемый, печатались этикетки целыми сериями. Каждый кабель нумеровали с двух сторон — название порта на каждый.

Пакуется всё сначала в здоровую антистатику, потом в огромную кучу плёнки с пупырышками, потом в гофрокартон. Да, работаем мы с проверенной логистической компанией, которая делала с нами много переездов. Они хорошо знают специфику: нужное количество ремней для разных стоек, максимально плоское распределение серверов по кузову. Знают, что нельзя класть сервер на сервер. Знают, что серверы (о, ужас!) нельзя переворачивать в процессе перевозки. Почему — не знают, но что за переворот отрывают руки — понимают хорошо.

Оборудование почти всегда страхуется (кроме совсем старого, готового к списанию). Страховка даже от переворота машины, ДТП, затопления и падения в руках грузчиков. У меня (тьфу-тьфу) серьёзных страховых случаев пока не возникало, но, конечно, бывало, что старые HDD не переносили дорогу.

4. Следующая итерация


На месте — коммутация в новой схеме (делаем в большинстве случаев мы), запуск и проверка работоспособности сервера остаются на заказчике и его инженерах, иногда проводятся с нашей помощью. Мы покидаем площадку только тогда, когда заказчик поднимает все сервисы, оборудование которых перевозилось на текущей итерации.

Затем выполняется следующая итерация переезда. Если текущая была последней — всё проверяется и переезд заканчивается.

Особенности


Один из самых долгих в подготовке процессов — это новая сетевая инфраструктура. Как правило, на время переезда сервисы не останавливаются, потому что мы делаем два Active-Active-инстанса, а потом один отключаем, перевозим и подключаем на новом месте. То есть на время перевозки и монтажа система остаётся без горячего резерва, разве что только с бэкапом. Иногда нужно перевести всего 5 серверов, но делаем в 3 этапа, потому что они друг друга резервируют, и нельзя терять отказоустойчивость.

Часто нужно сохранять сетевую топологию даже на время итераций переезда, чтобы не перестраивать, например, всё в регионах, стучащее в головной дата-центр. Либо нужно сразу разработать новую схему и сразу включить в ней — но так, чтобы для конечного пользователя ничего не поменялось.

Например, в 2011-м процедуру слияния прошли два крупных банка — пришлось объединить базы, процессинг, согласовать системы. Нужно было перевезти офис и ЦОД одного банка на территорию второго. Это делалось в пределах Москвы. Проект состоял из 6 этапов. Физически много оборудования, нужно было согласовать план-график отключения систем. Банк ввел в эксплуатацию системы на новой площадке, мы перевезли ещё серверов, заказчик объединил их с предыдущими, потом мы доставили новую партию. Раз в неделю или две таскали в зависимости от готовности. Из особенностей была новая система коммутации, причём банковские сисадмины сделали совершенно волшебную вещь — они взяли наши схемы и по ним предоставили пачкорды ровно той длины, которая нужна. Патчкорды были каждый больше предыдущего на 20-30 см, поэтому не было висящих, как сопли, проводов и петель в три оборота. На этом же монтаже к нам приезжали сотрудники вендора, следящие за раскоммутацией тяжелого железа, потому что оно было на гарантии.

Бывают сложные переезды. Например, я как-то возил ЦОД, который из офиса решили переставить в нашу TIER III-колокацию. Офис переезжал, и новый был не предназначен для оборудования. Вообще, они и заезжали-то в свой старый офис так, что было всего три сервера, поэтому просто поставили их в комнатушку. Потом, как это водится с времянками, за почти 10 лет комнатушка сильно прибавила в оборудовании: появились ещё стойки, кондиционер на полу, блейды… Один из шкафов вообще в лифт не влезал, пришлось вынимать краном через окно.

Случаи бывали разные. Один раз собирали железо со всей страны, потому что консолидировали регионы в центральном офисе, когда внедряли VDI. Получалось дешевле по железу и по поддержке, плюс удобно администрировать. Ради одной железки не надо держать спецов на местах.

Из Владивостока везли самолётом, надо было крепить на палетах, тряска. Для таких ситуаций очень часто нужны заводские упаковки — стараемся найти «родную», потому что там пенопласт и стяжки. Просто в плёнку и гофру — недостаточно, в самолёте могут быть сильные толчки. Обычно заказчик сохраняет упаковку сам, плюс у нас есть коробочная на складе — по 2–3 образца упаковки всего, что к нам когда-либо приезжало. Очень полезно, потому что если заказчик выкинул коробки от больших RISC-серверов, у нас точно найдётся пара штук таких же.

Один раз заказчик настоял, чтобы мы вытащили жёсткие диски и повезли отдельно от серверов. Сначала доставали диски, нумеровали по порядку вставки, потом упаковывали каждый диск отдельно. Складывали комплектами по 8 штук в картон. За этот переезд выпали 5 дисков из 5 стоек половинчатой набивки. Высадку-посадку переживали не все: для дисков это иногда стресс больший, чем переезд в родных слотах. Потом перестали доставать, за оставшиеся 5 итераций всего два диска погибло. Вообще, тут шаманство, конечно: бывает, что сервак 2 года аптайма стоит, а потом его кто-то просто включил-выключил — и опа — HDD не работает.

Один раз разбирали огромный металлический дверной проём — дверь в ЦОД была не по габариту. Выкручивали, рассверливали, чтобы убрать нижний порог. Не проходила ленточная библиотека. Когда они туда затаскивали ее, двери там не было. Замуровали, демоны!

Ещё на первом этапе нужно морочиться о пропусках для всех. У нас, например, был совершенно фееричный случай недавно: на один из объектов повышенной ответственности не пустили иностранных грузчиков. Пришлось в час ночи контрагенту менять людей.

На масштабных переездах группы инженеров работают сменами. Например, переезжало сразу много стоек. В пятницу в 21:00 останавливаются резервные ноды, а в субботу в 9:00 нужно запустить их для синхронизации с основными и превращения уже их в ведущие. 12 часов подряд сложно работать, поэтому размонтируют одни люди, а монтируют другие. Менеджер остаётся и следит за всем от начала до конца.

Цены


У нас ставка часа работы инженера несколько выше, чем в среднем по рынку (не на порядок). Но эта цена опытного заказчика обычно полностью устраивает, потому что он знает, за что конкретно платит. Мы не закладываем стоимость самой транспортировки (сколько выдаёт транспортная — транслируем напрямую). Плюс есть инфраструктура для замен в случае чего. Мы ещё очень чётко и обоснованно показываем, сколько времени что занимает: 2 часа — разборка, 3 часа — сборка, переезд, простой. Стоимость озвучивается на первом этапе подготовки и не меняется, даже если были какие-то ЧП. Если диски повылетают — будет больше часов по факту, но мы за них не возьмём дополнительно.

Иногда заказчик сам увеличивает количество часов на 6–12: «Давайте заложим следующий день и одного спеца на случай непредвиденных обстоятельств, нам, может, что-то потребуется, например, перекоммутировать после запуска».

Сложно бывает с конкурсами — там до точного понимания схемы коммутации сроки работ сказать сложно, поэтому приходится закладывать вилку.

Вот как-то так. Если вдруг есть вопрос не для комментариев — пишите на IShklyaev@croc.ru. По этой же почте могу предварительно посчитать переезд (бесплатно), чтобы был ориентир, если повезёте что-то ответственное.
Tags:
Hubs:
Total votes 35: ↑34 and ↓1+33
Comments6

Articles

Information

Website
croc.ru
Registered
Founded
Employees
1,001–5,000 employees
Location
Россия