Мы в King Servers столкнулись с необходимостью сменить один из наших зарубежных дата-центров. ЦОД располагался в американском штате Калифорния, и искать новый нужно было в том же регионе. Сегодня мы расскажем о том, как прошел переезд, поделимся впечатлениями от него и дадим пару советов тем, кому еще только предстоит близко столкнуться с инфраструктурными площадками в США.
Зачем менять дата-центр
Развитие инфраструктуры компании постепенно привело к тому, что нас перестали устраивать условия нашего текущего дата-центра. Несмотря на то, что ЦОД имел стандарт Tier2, буквально за год мы столкнулись с рядом проблем, таких как пропадание питания в части стоек или полное падение интернет-канала.
Кроме того, площадка была не Carrier-neutral — на практике это означало, что услуги связи предоставляла лишь одна компания, которая и владела ЦОД. Поэтому в моменты сбоев на ее каналах, связь пропадала полностью, что не могло устроить ни нас, ни наших клиентов.
Взвесив все за и против, мы решились на миграцию инфраструктуры в новый датацентр, в котором было бы возможно использование двух независимых линий питания одновременно и подключение к нескольким провайдерам.
Процесс переезда
Оба дата-центра находились недалеко друг от друга, на расстоянии 20 км. Старый в городе Фримонт, а новый в Санта-Кларе.
Готовились к переезду основательно — заранее закупили расходные материалы, необходимые для монтажа серверов в стойки, новые кабели питания и патч-корды, чтобы сократить время на демонтаж в старом датацентре.
Запасы для переезда
Также установили второй роутер в новом датацентре и организовали одновременную работу наших сетей в обоих дата-центрах.
В итоге был разработан план, предполагающий поэтапный перевод инфраструктуры на новую локацию — так мы могли бы продолжить работу и не доставлять лишних неудобств пользователям.
Первоначально мы хотели воспользоваться услугами специализированной компании для перевозки оборудования, но в процессе переговоров с несколькими компаниями выяснили что они смогли бы перевезти наше оборудование либо крупными партиями с большим даунтаймом для клиентов, либо мелкими частями с минимальным даунтаймом, но цена при таких условиях значительно увеличивалась. В итоге было решено командировать нескольких наших инженеров через половину земного шара и выполнить работы своими силами. Даже с учетом перелетов, проживания и аренды транспорта такой шаг выходил в 2 раза дешевле, чем минимальный прайс от калифорнийских мувинговых компаний.
Первый этап работ включал выезд в старый дата-центр для оценки инфраструктуры — не все инженеры нашей команды бывали там раньше, а некоторые в последний раз приезжали пару лет назад, и за это время было проведено много различных работ сотрудниками дата-центра. Было необходимо проверить и монтаж оборудования — как оказалось с этим не все было так хорошо, как в наш последний приезд.
В стойках были использованы кабели с избыточной длиной, некоторые серверы смонтированы без использования салазок и намертво прикручены к стойке. Стало понятно, что времени на демонтаж потребуется куда больше, чем мы запланировали. К счастью, запасных материалов было достаточно для того, чтобы обойтись без полного демонтажа всего железа, и мы все еще укладывались в график миграции.
Нельзя сказать, что мы остались довольны увиденным в старом ДЦ
Затем последовала разведывательная поездка в новый ЦОД с целью осмотреться и изучить новые стойки.
Во время первого приезда в новый дата-центр наши инженеры в первую очередь оценили его технологичность. В старом дата-центре все было очень строго — сотрудники ЦОД не только очень дотошно проверяли документы инженеров, но и сопровождали при перемещении к своим стойками и около них. Это влекло за собой временные задержки, так как часто нужно было ждать, пока такой сопровождающий освободится. Новая площадка оказалась куда демократичней в этом плане, что позволило нам работать быстрее.
По плану команда инженеров должна была приезжать в старый ЦОД, забирать 15-20 серверов, затем устанавливать их в стойки на новом месте, включать их, и после этого все должно было работать не требуя дополнительного вмешательства с нашей стороны.
Не обошлось без сложностей — например, внезапно выяснилось, что маршрутизатор Cisco, который мы планировали использовать для организации туннеля работал не так, как планировалось и после перевозки тестовой части не используемых клиентами серверов и тестирования стало понятно, что трафик клиентов он не выдержит.
Пришлось оперативно менять схему сети и использовать дополнительные маршрутизаторы, чтобы разделить нагрузку от клиентов и позволить сети продержаться пару дней в ходе миграции. Время настройки уже не входило ни в один из наших планов, что все-таки вызвало отклонение от графика.
Также не все серверы после перевозки запустились сразу. Часть наших клиентов администрирует выделенные серверы самостоятельно и закрывает нам все доступы, включая мониторинг. На некоторых серверах диски находились не в лучшем состоянии и даже аккуратное отключение с корректным завершением работы системы не спасло от сбоев загрузки из-за поврежденных файловых систем и распавшихся рейдов.
В каждой новой партии перевезенных серверов встречалась парочка подобных проблемы, и инженеры службы технической поддержки после миграции каждой партии серверов проводили работы по восстановлению их работоспособности.
Итого: общие впечатления
В американских дата-центрах все очень строго, получить даже минимальный доступ к собственному оборудованию непросто — на каждое действие нужно получить одобрение, которое может дать только менеджер, который совсем не обязательно физически находится в ДЦ. Тогда нужно создавать тикет в хелпдеск-системе и ждать его разрешения.
Также можно встретить довольно жесткие условия, например, по использованию ресурсов дата-центра — так в нашем новом ЦОД есть ограничение, запрещающее надолго (более 1-2 суток) оставлять свое железо на складе. Нам нужно было больше времени, и чтобы получить разрешение на более долгое хранение пришлось по описанной выше схеме получать одобрение менеджера. ID (паспорт или права), как и в принципе в США, в местных дата-центрах спрашивают постоянно, к этому тоже нужно быть готовым.
С другой стороны, с организационной точки зрения использование ДЦ в Калифорнии оказалось очень приятным. Все оговоренные в контрактах условия всегда выполнялись, чего нам не всегда удавалось добиться в России. К примеру, однажды наш переезд в новый ЦОД сорвался по причине того, что его инженеры не успели подготовить стойки — хотя в договоре сроки подготовки были прописаны четко (мы рассказывали о своих приключениях в этом материале).
Помимо этого, местные инженеры оказались очень дружелюбными и всегда шли нам навстречу — например, когда у нас обнаружилась нехватка кабелей, чтобы мы не прерывались и не ехали в магазин за новыми, коллеги выделили нам ресурсы из своих запасов.
Заключение: что нужно знать при работе с американскими дата-центрами
В завершение еще раз перечислим несколько основно
- В США далеко не все дата-центры очень технически продвинуты — поэтому не стоит выбирать первый попавшийся вариант, а уделить больше времени поискам. Возможно, стоимость услуг более инновационного ЦОД будет дороже, но при определенных размерах инфраструктуры лучшие условия могут принести экономию на ремонте, обслуживании и замене железа.
- Нужно жестко следовать правилам — США такая страна, где законы исполняются, даже если это кажется не всегда логичным. Но если в правилах сказано, что клиент не может отойти от своей стойки на два шага, то чтобы это сделать, нужно будет получить разрешение менеджера — и попутно подписать не одну бумагу и несколько раз показать ID.
- Все очень дружелюбны, но надеяться в любом случае нужно только на себя — знаменитая американская позитивность не миф и распространяется в том числе на инженеров дата-центров, которые всегда не против помочь. Однако это не значит, что нужно расслабляться — например, ошибки при подготовке миграции никто за вас не исправит.
Больше полезных ссылок и материалов от King Servers:
- Бесплатный тест инфраструктуры от King Servers
- Как и зачем мы создавали базу знаний
- Как выбрать дата-центр для ИТ-проекта в России: аптайм, деньги и общая адекватность
- Статистика популярности операционных систем в IaaS: Ubuntu пока номер один, популярность CentOS растет
- Когда ломается «облако»: что можно сделать в этой ситуации?