10 мая 2017 в 11:18

Облако против лома: восстановление IT-инфраструктуры

8 мин

19K

Катастрофа на предприятии — это чаще всего не когда «все горит и взрывается». Потеря информации в больших масштабах или вынос серверов — вот это настоящий пожар, который может привести к прекращению деятельности компании. Но, к сожалению, планирование аварийного восстановления IT-инфраструктуры не входит в список приоритетных IT-задач. Более того, у некоторых компаний нет даже бэкап-планов. Но если вы читаете эту статью — вы хотя бы думаете об этом. А в InfoboxCloud эта проблема продумана давно.

Согласно отчету EMC за 2014 год, потери данных и простои стоили российским организациям 29 млрд долларов США. Объемы потерянных данных по всему миру с 2012 г.
выросли на 400 %. При этом 82% организаций все еще не уверены в своей способности восстановить данные после нарушений работы.

Одна из важных метрик, на которую обычно смотрит компания: разница между доходами и затратами. Затраты на планирование аварийного восстановления могут быть значительными — в плане времени сотрудников, ресурсов и финансов. С другой стороны, эти мероприятия увеличат операционную эффективность, позволят терять меньше клиентов и приводить новых, и в целом разница между прибылью и затратами будет расти.

Нефтегазовая компания ExxonMobil
призналась в Верховном суде Манхэттена, что потеряла электронные письма госсекретаря США Рекса Тиллерсона из его учетной записи, РБК 2017

Аварии могут привести к неожиданным потерям: финансовым, имиджевым, клиентским. Потери данных могут быть незаметными, но мало кому так везет. Чаще всего потери данных оказывают сильнейшее воздействие на возможность осуществления бизнес-процессов и в худшем случае могут привести к закрытию компании.

При планировании аварийного восстановления обычно выделяют критические части инфраструктуры, которые должны быть восстановлены в случае катастрофы. После этого к облачной и/или физической инфраструктуре подключается технология аварийного восстановления происходит настройка процессов восстановления и отработка критических ситуаций. Эксперты InfoboxCloud помогут настроить аварийное восстановления для вашего проекта в облаке Azure Pack Infrastructure.

Внесем ясность

Непрерывность бизнеса — методология создания и проверки плана обслуживания бизнес-процессов до, в течение и после отключения или деструктивных событий.

Аварийное восстановление — часть непрерывности бизнеса, немедленное воздействие на возникшее событие. Например, восстановление виртуальных машин при проблемах на уровне дата-центра. Задача аварийного восстановления — предотвратить влияние аварии настолько быстро, насколько возможно.

Катастрофа уровня пользователя (логическая катастрофа) — ошибки администрирования или программного обеспечения пользователя, например, случайное удаление пользователем файлов или виртуальных машин, некорректные транзакции в базе данных, необратимое ошибочное обновление ПО и так далее.

Катастрофа уровня региона — проблемы уровня дата-центра или инсталляции облака в целом. Например, сбой питания дата-центра или пожар, сбой в системе управления кластером инсталляции.

Для защиты от логических катастроф мы подключаем резервное копирование в другой ЦОД и рекомендуем его всем пользователям.

Защита от катастроф уровня региона — репликация и аварийное восстановление виртуальной IT-инфраструктуры в резервный ЦОД. Посмотрим, как это работает на деле.

Решение для аварийного восстановления в InfoboxCloud

В качестве решения для аварийного восстановления многие провайдеры предлагают репликацию, но одной ее недостаточно. Корпоративные приложения, как правило, подразумевают несколько групп виртуальных машин с целостными данными в каждой из них. Кроме того, у каждой виртуальной машины свои требования к IP–адресам, организации сети, наличие публичного доступа или требования к работе через VPN. Дополнительно для каждой из них могут применяться отдельные правила проброса портов и аутентификации (например использование Active Dicrectory) или требоваться особая последовательность запуска VM.

Для репликации виртуальной IT-инфраструктуры в нашем облаке Azure Pack Infrastructure используется технология Azure Site Recovery, интегрированная в облачную платформу на уровне системы управления виртуальными машинами (VMM), частота репликации — 30 секунд. Сама инсталляция Azure Pack Infrastructure размещена в Москве и была разработана вместе с европейскими архитекторами Microsoft и аттестована Microsoft в рамках программы Cloud OS Network. Репликацию из облака настраивают наши эксперты под задачи конкретного проекта. Но возможности репликации не ограничены облаком (хотя ее удобнее всего использовать из облака). Клиент может применять репликацию и для защиты своей физической инфраструктуры серверной или собственной инсталляции VMWare. В этом случае мы предоставляем доступ в облако Microsoft Azure по ценам Microsoft без дополнительных наценок и бесплатно оказываем консультативную поддержку.

При аварии Azure Site Recovery позволяет восстанавливать окружение приложений целиком, обеспечивая целостность на уровне групп виртуальных машин, соблюдая правила запуска и пост-конфигурации.

Дополнительно технология дает возможность конфигурации сети при восстановлении, использования статических IP–адресов, балансировщиков нагрузки, диспетчеров трафика для достижения минимального времени восстановления. Например, если у компании внутри виртуальных машин были использованы какие-то внутренние IP–адреса и на них завязаны используемые сервисы, можно легко организовать переезд этих адресов в резервный ЦОД. Таким образом при аварии не придется перенастраивать всю инфраструктуру.

Глубокая интеграция облачных платформ Azure Pack Infrastructure и Microsoft Azure позволяет провести восстановление с нулевой потерей данных, когда до переключения в облаке Azure Pack Infrastructure виртуальные машины останавливаются, реплицируются последние изменение и запускаются в Azure.

Аварийное восстановление может происходить не только на инфраструктурном уровне, но и на уровне приложений. Множество технологий репликации уже интегрировано в Azure Site Recovery, включая репликацию:

Active Directory
SQL Server Always On групп доступности
Баз данных Exchange
Oracle Data Guard

Используя Azure Site Recovery, можно комбинировать возможности репликации на уровне IT-инфраструктуры и приложений (например, для использования баз данных в режиме Active–Active с нулевым даунтаймом).

Не забываем о нетехнических угрозах и защите

О катастрофах уровня Фукусимы в России даже после Чернобыля думать не принято, следовательно, и защищаться от угроз масштаба дата-центра тоже не принято. Но есть в России и свои угрозы, понятные практически каждому бизнесу. И связаны они отнюдь не с отказом IT.

Например, ситуация, при которой по незаконному поводу для проведения проверки изымаются все серверы предприятия, неизменно приводит к остановке бизнеса. Конечно, все потом вернут — но любые простои приносят компании ущерб. При использовании программы аварийного восстановления при отсутствии физических серверов можно продолжить работу из облака Microsoft Azure, а после возвращения оборудования — синхронизировать изменения обратно. При этом в InfoboxCloud можно заключить договор не только с российской, но и с европейской компанией, что обеспечит дополнительную безопасность. Конечно, это не поможет нарушить закон (и мы никогда не будем помогать в этом) — но позволит бизнесу, соблюдая закон, быть устойчивым к незаконным отключениям.

Как это работает на практике

Создание виртуальной машины в облаке Azure Pack Infrastructure

Давайте развернем сервер и проверим, как работает аварийное восстановление.
После того, как мы получили доступ в облако Azure Pack Infrastructure, войдем в панель управления https://portal.infoboxcloud.com и создадим виртуальную машину.

Для создания виртуальной машины нажмите «Создать» -> «Автономная виртуальная машина» -> «Из коллекции» и выберите Windows Server 2016.

Задайте имя виртуальной машины и пароль.

Выберите сеть, к которой нужно подключить виртуальную машину (если сети еще нет — ее можно создать позже).

Спустя несколько минут виртуальная машина будет создана.

Включаем доступ по RDP

Перейдите в раздел «Сети», выберите сеть, к которой подключена виртуальная машина, и перейдите в раздел «Правила».

Добавьте новое правило проброса порта 3389 с внешнего IP к виртуальной машине.

Теперь можно подключаться к виртуальной машине по RDP.

При необходимости на этом этапе можно добавить виртуальной машине ресурсов процессора, оперативной памяти и диска. Возможны любые конфигурации при сохранении правила: на подписке пользователя суммарно на все виртуальные машины количество ГБ оперативной памяти не должно превышать количество ядер процессора. Если правило соблюдается, возможны любые соотношения ресурсов до 48 ядер, 256 гб оперативной памяти и 64 тб дискового пространства на VM. При этом для корректной работы репликации диск ОС не должен быть больше 1 тб, остальные данные лучше разместить на дополнительном диске.

Настройка сервера

Настроим рабочее окружение. Для эксперимента мы развернули 1C.

Включаем репликацию в резервный ЦОД

Для активации репликации нужно написать тикет в команду поддержки InfoboxCloud из панели управления услугами («Центр поддержки» -> «Написать тикет»).

Вы получите ответ об активации услуги и расчет ежемесячной абонентской платы. Это базовый платеж. При переключении в резервный ЦОД дополнительно оплачивается работа виртуальной машины выбранной конфигурации в нем.

После активации важно обсудить в тикете, что нужно проверять на сервере и при каких условиях должно запускаться аварийное восстановление. По результатам будут созданы правила восстановления и виртуальная машина будет добавлена в мониторинг. Теперь есть 2 сценария:

В любое время вы можете попросить переключиться на резервный ЦОД в тикете
При срабатывании мониторинга по согласованным правилам будет осуществляться переключение на резервный ЦОД.

Что происходит внутри (и не волнует заказчика)

Создается сеть с таким же адресным пространством, как в локальной инсталляции заказчика, и настраивается мэппинг между сетями.

Активируется репликация.

Дополнительно устанавливается, куда происходит аварийное восстановление и какой IP–адрес VM получает после восстановления.

Теперь наша виртуальная машина при катастрофе может быть восстановлена в резервном ЦОД.

Восстановление в резервный ЦОД

После настройки можно провести тестовое восстановление, при котором T-инфраструктура предприятия будет воссоздана в Azure без переключения из Azure Pack Infrastructure. Это нужно для того, чтобы проверить работоспособность бизнес-процессов после восстановления. Если у пользователя подключен расширенный пакет поддержки, мы будем проверять корректность восстановления не реже, чем раз в 60 дней.

Допустим, произошла серьезная катастрофа. Дальше есть 2 варианта развития событий. Если последние данные можно синхронизировать, они будут переданы в Azure. Затем основным регионом работы станет Azure, а машина в Azure Pack Infrastructure будет остановлена. Если последние данные восстановить нельзя (аварийное восстановление), будет запущена виртуальная машина с реплицированными данными. По умолчанию «давность» реплики — 15 минут, но пользователь может выбрать реплику часовой или 2-х часовой давности.

Посмотрим, как происходит аварийное восстановление при самом длительном варианте переключения с синхронизацией всех изменений. Процесс запущен в 13:22 и завершился в 14:26. Таким образом реальное время восстановления даже в сложном случае составило примерно 1 час.

Виртуальная машина успешно запущена в регионе «Северная Европа» Microsoft Azure.

Можно подключиться и убедиться, что все данные и настройки на месте.

В итоге даже в случае аварии компания успешно продолжила работу без потери данных из Azure. При необходимости вернуться назад можно выполнить обратную репликацию и запустить виртуальную машину из Azure Pack Infrastructure.

С чего начать?

Напишите нам запрос на бесплатную консультацию или протестируйте Azure Pack Infrastructure». Мы свяжемся с вами и поможем сделать работу ИТ вашей компании надежнее и предсказуемее, а на случай катастрофы у вас будет готовое решение.

Мы понимаем, что в кризис все компании стремятся к максимальной экономии и для легкого старта мы предлагаем 50% скидку на высокодоступное облако Azure Pack Infrastructure на 6 месяцев. Предложение ограничено и распространяется только на читателей Хабрахабра. Укажите в форме заявки кодовое слово «Хабрахабр». Успейте получить заоблачную ссылку!

Успешного использования InfoboxCloud!

Хабы: