Блог компании Microsoft

Облако против лома: восстановление IT-инфраструктуры

Катастрофа на предприятии — это чаще всего не когда «все горит и взрывается». Потеря информации в больших масштабах или вынос серверов — вот это настоящий пожар, который может привести к прекращению деятельности компании. Но, к сожалению, планирование аварийного восстановления IT-инфраструктуры не входит в список приоритетных IT-задач. Более того, у некоторых компаний нет даже бэкап-планов. Но если вы читаете эту статью — вы хотя бы думаете об этом. А в InfoboxCloud эта проблема продумана давно.

Согласно отчету EMC за 2014 год, потери данных и простои стоили российским организациям 29 млрд долларов США. Объемы потерянных данных по всему миру с 2012 г.
выросли на 400 %. При этом 82% организаций все еще не уверены в своей спосо
бности восстановить данные после нарушений работы
.
Одна из важных метрик, на которую обычно смотрит компания: разница между доходами и затратами. Затраты на планирование аварийного восстановления могут быть значительными — в плане времени сотрудников, ресурсов и финансов. С другой стороны, эти мероприятия увеличат операционную эффективность, позволят терять меньше клиентов и приводить новых, и в целом разница между прибылью и затратами будет расти.
Нефтегазовая компания ExxonMobil
призналась в Верховном суде Манхэттена, что потеряла электронные письма госсекретаря США Рекса Тиллерсона из его учетной записи
, РБК 2017
Аварии могут привести к неожиданным потерям: финансовым, имиджевым, клиентским. Потери данных могут быть незаметными, но мало кому так везет. Чаще всего потери данных оказывают сильнейшее воздействие на возможность осуществления бизнес-процессов и в худшем случае могут привести к закрытию компании.
При планировании аварийного восстановления обычно выделяют критические части инфраструктуры, которые должны быть восстановлены в случае катастрофы. После этого к облачной и/или физической инфраструктуре подключается технология аварийного восстановления происходит настройка процессов восстановления и отработка критических ситуаций. Эксперты InfoboxCloud помогут настроить аварийное восстановления для вашего проекта в облаке Azure Pack Infrastructure.

Внесем ясность
Непрерывность бизнеса — методология создания и проверки плана обслуживания бизнес-процессов до, в течение и после отключения или деструктивных событий.
Аварийное восстановление — часть непрерывности бизнеса, немедленное воздействие на возникшее событие. Например, восстановление виртуальных машин при проблемах на уровне дата-центра. Задача аварийного восстановления — предотвратить влияние аварии настолько быстро, насколько возможно.
Катастрофа уровня пользователя (логическая катастрофа) — ошибки администрирования или программного обеспечения пользователя, например, случайное удаление пользователем файлов или виртуальных машин, некорректные транзакции в базе данных, необратимое ошибочное обновление ПО и так далее.
Катастрофа уровня региона — проблемы уровня дата-центра или инсталляции облака в целом. Например, сбой питания дата-центра или пожар, сбой в системе управления кластером инсталляции.

Для защиты от логических катастроф мы подключаем резервное копирование в другой ЦОД и рекомендуем его всем пользователям.
Защита от катастроф уровня региона — репликация и аварийное восстановление виртуальной IT-инфраструктуры в резервный ЦОД. Посмотрим, как это работает на деле.
Решение для аварийного восстановления в InfoboxCloud
В качестве решения для аварийного восстановления многие провайдеры предлагают репликацию, но одной ее недостаточно. Корпоративные приложения, как правило, подразумевают несколько групп виртуальных машин с целостными данными в каждой из них. Кроме того, у каждой виртуальной машины свои требования к IP–адресам, организации сети, наличие публичного доступа или требования к работе через VPN. Дополнительно для каждой из них могут применяться отдельные правила проброса портов и аутентификации (например использование Active Dicrectory) или требоваться особая последовательность запуска VM.
Для репликации виртуальной IT-инфраструктуры в нашем облаке Azure Pack Infrastructure используется технология Azure Site Recovery, интегрированная в облачную платформу на уровне системы управления виртуальными машинами (VMM), частота репликации — 30 секунд. Сама инсталляция Azure Pack Infrastructure размещена в Москве и была разработана вместе с европейскими архитекторами Microsoft и аттестована Microsoft в рамках программы Cloud OS Network. Репликацию из облака настраивают наши эксперты под задачи конкретного проекта. Но возможности репликации не ограничены облаком (хотя ее удобнее всего использовать из облака). Клиент может применять репликацию и для защиты своей физической инфраструктуры серверной или собственной инсталляции VMWare. В этом случае мы предоставляем доступ в облако Microsoft Azure по ценам Microsoft без дополнительных наценок и бесплатно оказываем консультативную поддержку.
При аварии Azure Site Recovery позволяет восстанавливать окружение приложений целиком, обеспечивая целостность на уровне групп виртуальных машин, соблюдая правила запуска и пост-конфигурации.
Дополнительно технология дает возможность конфигурации сети при восстановлении, использования статических IP–адресов, балансировщиков нагрузки, диспетчеров трафика для достижения минимального времени восстановления. Например, если у компании внутри виртуальных машин были использованы какие-то внутренние IP–адреса и на них завязаны используемые сервисы, можно легко организовать переезд этих адресов в резервный ЦОД. Таким образом при аварии не придется перенастраивать всю инфраструктуру.
Глубокая интеграция облачных платформ Azure Pack Infrastructure и Microsoft Azure позволяет провести восстановление с нулевой потерей данных, когда до переключения в облаке Azure Pack Infrastructure виртуальные машины останавливаются, реплицируются последние изменение и запускаются в Azure.
Аварийное восстановление может происходить не только на инфраструктурном уровне, но и на уровне приложений. Множество технологий репликации уже интегрировано в Azure Site Recovery, включая репликацию:

  • Active Directory
  • SQL Server Always On групп доступности
  • Баз данных Exchange
  • Oracle Data Guard
Используя Azure Site Recovery, можно комбинировать возможности репликации на уровне IT-инфраструктуры и приложений (например, для использования баз данных в режиме Active–Active с нулевым даунтаймом).

Не забываем о нетехнических угрозах и защите
О катастрофах уровня Фукусимы в России даже после Чернобыля думать не принято, следовательно, и защищаться от угроз масштаба дата-центра тоже не принято. Но есть в России и свои угрозы, понятные практически каждому бизнесу. И связаны они отнюдь не с отказом IT.

Например, ситуация, при которой по незаконному поводу для проведения проверки изымаются все серверы предприятия, неизменно приводит к остановке бизнеса. Конечно, все потом вернут — но любые простои приносят компании ущерб. При использовании программы аварийного восстановления при отсутствии физических серверов можно продолжить работу из облака Microsoft Azure, а после возвращения оборудования — синхронизировать изменения обратно. При этом в InfoboxCloud можно заключить договор не только с российской, но и с европейской компанией, что обеспечит дополнительную безопасность. Конечно, это не поможет нарушить закон (и мы никогда не будем помогать в этом) — но позволит бизнесу, соблюдая закон, быть устойчивым к незаконным отключениям.
    Как это работает на практике
    Создание виртуальной машины в облаке Azure Pack Infrastructure
    Давайте развернем сервер и проверим, как работает аварийное восстановление.
    После того, как мы получили доступ в облако Azure Pack Infrastructure, войдем в панель управления https://portal.infoboxcloud.com и создадим виртуальную машину.
    Для создания виртуальной машины нажмите «Создать» -> «Автономная виртуальная машина» -> «Из коллекции» и выберите Windows Server 2016.
    Задайте имя виртуальной машины и пароль.
    Выберите сеть, к которой нужно подключить виртуальную машину (если сети еще нет — ее можно создать позже).
    Спустя несколько минут виртуальная машина будет создана.
    Включаем доступ по RDP
    Перейдите в раздел «Сети», выберите сеть, к которой подключена виртуальная машина, и перейдите в раздел «Правила».
    Добавьте новое правило проброса порта 3389 с внешнего IP к виртуальной машине.
    Теперь можно подключаться к виртуальной машине по RDP.
    При необходимости на этом этапе можно добавить виртуальной машине ресурсов процессора, оперативной памяти и диска. Возможны любые конфигурации при сохранении правила: на подписке пользователя суммарно на все виртуальные машины количество ГБ оперативной памяти не должно превышать количество ядер процессора. Если правило соблюдается, возможны любые соотношения ресурсов до 48 ядер, 256 гб оперативной памяти и 64 тб дискового пространства на VM. При этом для корректной работы репликации диск ОС не должен быть больше 1 тб, остальные данные лучше разместить на дополнительном диске.
    Настройка сервера
    Настроим рабочее окружение. Для эксперимента мы развернули 1C.
    Включаем репликацию в резервный ЦОД
    Для активации репликации нужно написать тикет в команду поддержки InfoboxCloud из панели управления услугами («Центр поддержки» -> «Написать тикет»).
    Вы получите ответ об активации услуги и расчет ежемесячной абонентской платы. Это базовый платеж. При переключении в резервный ЦОД дополнительно оплачивается работа виртуальной машины выбранной конфигурации в нем.
    После активации важно обсудить в тикете, что нужно проверять на сервере и при каких условиях должно запускаться аварийное восстановление. По результатам будут созданы правила восстановления и виртуальная машина будет добавлена в мониторинг. Теперь есть 2 сценария:

    1. В любое время вы можете попросить переключиться на резервный ЦОД в тикете
    2. При срабатывании мониторинга по согласованным правилам будет осуществляться переключение на резервный ЦОД.
    Что происходит внутри (и не волнует заказчика)
    Создается сеть с таким же адресным пространством, как в локальной инсталляции заказчика, и настраивается мэппинг между сетями.
    Активируется репликация.
    Дополнительно устанавливается, куда происходит аварийное восстановление и какой IP–адрес VM получает после восстановления.
    Теперь наша виртуальная машина при катастрофе может быть восстановлена в резервном ЦОД.
    Восстановление в резервный ЦОД
    После настройки можно провести тестовое восстановление, при котором T-инфраструктура предприятия будет воссоздана в Azure без переключения из Azure Pack Infrastructure. Это нужно для того, чтобы проверить работоспособность бизнес-процессов после восстановления. Если у пользователя подключен расширенный пакет поддержки, мы будем проверять корректность восстановления не реже, чем раз в 60 дней.
    Допустим, произошла серьезная катастрофа. Дальше есть 2 варианта развития событий. Если последние данные можно синхронизировать, они будут переданы в Azure. Затем основным регионом работы станет Azure, а машина в Azure Pack Infrastructure будет остановлена. Если последние данные восстановить нельзя (аварийное восстановление), будет запущена виртуальная машина с реплицированными данными. По умолчанию «давность» реплики — 15 минут, но пользователь может выбрать реплику часовой или 2-х часовой давности.
    Посмотрим, как происходит аварийное восстановление при самом длительном варианте переключения с синхронизацией всех изменений. Процесс запущен в 13:22 и завершился в 14:26. Таким образом реальное время восстановления даже в сложном случае составило примерно 1 час.
    Виртуальная машина успешно запущена в регионе «Северная Европа» Microsoft Azure.
    Можно подключиться и убедиться, что все данные и настройки на месте.
    В итоге даже в случае аварии компания успешно продолжила работу без потери данных из Azure. При необходимости вернуться назад можно выполнить обратную репликацию и запустить виртуальную машину из Azure Pack Infrastructure.
    С чего начать?
    Напишите нам запрос на бесплатную консультацию или протестируйте Azure Pack Infrastructure». Мы свяжемся с вами и поможем сделать работу ИТ вашей компании надежнее и предсказуемее, а на случай катастрофы у вас будет готовое решение.
    Мы понимаем, что в кризис все компании стремятся к максимальной экономии и для легкого старта мы предлагаем 50% скидку на высокодоступное облако Azure Pack Infrastructure на 6 месяцев. Предложение ограничено и распространяется только на читателей Хабрахабра. Укажите в форме заявки кодовое слово «Хабрахабр». Успейте получить заоблачную ссылку!
    Успешного использования InfoboxCloud!
    Комментарии 25
      +2
      Всё это очень классно и красиво, но если против вашего предприятия вдруг внезапно ввели санкции то вся красивая «глубокая интеграция облачных платформ Azure Pack Infrastructure и Microsoft Azure» автоматически превращается в пустую тыкву :)
        0
        А если вдруг санкции — все продолжит работать в Azure Pack Infrastructure в России и репликация будет переключена на резервную инсталляцию в России.
          0
          В Крыму тоже, MS не боится? ;)
            0
            давайте обсуждать техническую сторону вопроса :) Мы не эксперты в политике и не можем это комментировать. Инсталляция Azure Pack Infrastructure полностью контролируется и обслуживается российской компанией Infobox.
              0
              Согласен. Любая технология имеет свои ограничения.

              <занудство>
              У облаков 2 огромных (практически неустранимые) беды
              — ваши данные легко читает кто угодно (точнее тот, кому нужно(можно) :-)),
              — всё счастье может исчезнуть в один миг по независимым от вас и поставщика этих услуг обстоятельствам. И обстоятельства эти далеки стихийных катаклизмов и пожаров в ЦОД :)
              </занудство>

              В любом случае — удачи вам в развитии!
                0
                >— ваши данные легко читает кто угодно (точнее тот, кому нужно(можно) :-)),
                Доступ в инфраструктуру администрирования жестко ограничен, все действия инженеров протоколируются, контроль многоуровневый. Регулярно проводится аудит безопасности. Договор четко регламентирует невозможность использования данных кроме как для оказания сервиса и даже для этих целей нужно прямое разрешение от пользователя в тикете, мы юридически отвечаем по договору перед заказчиком.

                При необходимости особой гарантии конфиденциальности возможна активация Shielded VM (фича Windows Server 2016) — шифрования VM так, чтобы даже мы не смогли получить доступ к данным. В дальнейшем мы рассмотрим возможность включения Shielded VM для всех пользователей.

                >всё счастье может исчезнуть в один миг по независимым от вас и поставщика этих услуг обстоятельствам
                Для защиты от этого используется георепликация и геобекапы в другую юрисдикцию и в другого провайдера. Кроме этого мы всегда можем отдать vhd, которые будут работать на обычном Hyper-V, даже в Windows 10.

                Спасибо за теплый отзыв. На самом деле все эти сомнения нам тоже близки, автору ответа потребовалось пойти работать в облачного провайдера чтобы убедиться в безопасности и конфиденциальности данных :)
                Мы делаем все возможное для обеспечения безопасности и конфиденциальности, наша цель — зарабатывать на оказании бесперебойного сервиса и реализации сложных проектов, а проблемы конфиденциальности с этим не совместимы.
                  0
                  При необходимости особой гарантии конфиденциальности возможна активация Shielded VM (фича Windows Server 2016)

                  А разве вся инфраструктура уже на 2016?
                    0
                    Пока еще не вся, постепенно вся перейдет на 2016. Торопиться с апгрейдами ПО в критичных сервисах не стоит.
                      0
                      Что ж, это может и верно, но как быть с предложениями лидеров рынка. Они стало быть поторопились и опрометчиво предлагают заведомо ненадежные решения?
                        0
                        Наше дело чтобы наши сервисы работали как часы не смотря ни на что, другие провайдеры нас абсолютно не волнуют. Волнует только успех проектов заказчиков, размещенных у нас. И то, что у нас практически нулевой отток с Azure Pack Infrastructure – отличный показатель. Те, кто начали использовать облако остаются с нами благодаря качеству сервиса, нашей экспертизе и отношению к каждому клиенту.
                          0
                          Вот по поводу вашей экспертизы. Много ли инженеров обслуживает ваше решение и все ли из них сертифицированы. Согласитесь, если решение такого плана обслуживает один единственный инженер, который хорошо, если читал об обслуживаемой технологии — это равносильно обезьяну посадить управлять космическим кораблём. Не обязательно приводить точные цифры, будем соблюдать коммерческие тайны. Но делать тайну из сертифицированных инженеров не стоит. Можно даже украсить статью копиями сертификатов или свидетельств. Будет весомым аргументом в пользу выбора вашего решения.
                            0
                            В обслуживании инсталляции задействованы десятки специалистов, среди которых есть Microsoft Certified Trainer, MCP, MVP RC. Инсталляция разработана с европейскими архитекторами Microsoft и успешно прошла приемо-сдаточные испытания Microsoft. Мы партнер Microsoft по программам Cloud OS Network Russia, CSP Tier 1 и имеем развитую экспертную сеть в сотрудничестве с нашими партнерами. Это помогает нам успешно реализовывать проекты масштаба Мисс Россия https://habrahabr.ru/company/microsoft/blog/327546/, это пример успешной работы наших архитекторов, партнеров и экспертной поддержки.
                              0
                              И 2 года подряд мы побеждали в партнерском конкурсе Microsoft в России в категории Хостинг, в том числе с решением Azure Pack Infrastructure.
                                0
                                Да, еще у нас есть Microsoft Developer Guidance Advisory Council и exMSP GURU :)
                                  0
                                  Можно огласить весь список участников?
                                  А то недавно в блоге Леново рекламировали миникластер на SS как офигенное внедрение, что вызывает совмнения в масштабах локальных облаков.
                                    0
                                    Ну например я, Юрий Трухин, эксперт InfoboxCloud, exMSP GURU, Microsoft Developer Guidance Advisory Council, MVP RC. Долгое время разрабатывал системы для подсчета запасов нефти и газа, а потом не доверяя облакам ушел строить облака и уже почти 5 лет этим занимаюсь день и ночь (и это не преувеличение), работая над сервисом которому можно доверять и которым мог бы пользоваться сам. Про коллег писать некорректно как минимум в таком комментарии, возможно позже спросив разрешения напишем отдельный пост.
                                  0
                                  Написано красиво, не придраться. Даже захотелось в живую попробовать ваш высоконадёжный сервис, так подробно расписанный. Думаю, сообщество не будет против, если после тест-драйва последует беспристрастный отзыв с целью сопоставить действительность с текстом в статье.
                        –1

                        Можно воспользоваться облачной криптографией.

              0
              Вопрос рассмотренный в статье актуален. Вынесло «маски-шоу» всё железо, купил планшет с нуля и снова в работе, через пять минут. Но надежное облачное решение должно включать несколько аналогов такого сервиса, принадлежащих разным компаниям, и расположенных в разных государствах…
                0
                Так и есть. Репликация и бекапирование происходит в регион Северная Европа облака Microsoft Azure. Т.е. в облако в другом государстве обслуживаемое другой компанией.
                  +1
                  и как этот момент соотносится с Российским законодательством?
                    0
                    в российском законодательстве нет запрета на использование иностранных облаков в принципе. Главное это сделать правильно в соответствии с законом. Мы можем помочь с этим для конкретного проекта.
                      +1
                      Действительно, законом не запрещена трансграничная передача информации, в том числе для целей резервного копирования. Главное, чтобы первоначальная обработка информации осуществлялась на территории России. Это касается и персональных данных.
                  +1
                  сбой в системе управления кластером инсталляции конец врезки

                  Кажется, «конец врезки» тут лишний.

                    0
                    спасибо, пофиксим в тексте :)

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.