behek 23 авг 2018 в 07:06

Реакция на аварию: растянутый кластер против DR-площадки

4 мин

9.2K

Блог компании Холдинг Т1Восстановление данных*Серверное администрирование*Системное администрирование*

+29

Комментарии 11

Karroplan 23 авг 2018 в 07:46

мне кажется, что автор путает понятия fault tolerance и disaster recovery. «Растянутый кластер», реплики СХД и т.д. — это fault-tolerance.
FT — это набор технических мероприятий минимизирующий влияние технических неполадок.
DR — это уже комплекс как технических так и организационных мероприятий, который позволяет продолжать работу при событии нарушающем работу мер FT.
то есть, FT — это два ЦОДа, репликация СХД, растянутые кластеры и т.д. И если выйдет из строя сеть питания всего региона и оба ЦОДа прикажут долго жить или изолируются — все ваши кластеры были ни к чему. DR — это как раз меры, чтоб избежать в том числе и этого. Например, третий ЦОД в 2000км от пары основных с 5мин отставанием в данных, ну или без отставания — зависит от глубины кармана.

behek 23 авг 2018 в 08:58

Говоря про DR-план, я не имею ввиду общий план для всего ЦОДа, а только про рассматриваемый продукт. И сокращение DR употребляю — как короткое название продукта, о котором пишу. Видимо небольшой путаницы не удалось избежать.

Loxmatiymamont 23 авг 2018 в 08:26

Всё же кластер и репликация призваны защищать разные вещи. Кластер обеспечивает, что сбойная машина будет быстро загружена в другом месте, в то время как реплика защищает информацию внутри машины.
Грубо говоря, слови вы криптор, кластер радостно отзеркалирует все изменения и у вас будет очень стабильная, но очень зашифрованная машина. В то время как с репликой такого риска нет.

dklm 23 авг 2018 в 08:47

С репликой эта проблема также актуальна, если только вы не храните несколько реплик.
Реплика защитит ваши данные в случаи физической потери или не доступности ваших серверов.
Для защиты от криптовирусов нужны резервные копии…

Loxmatiymamont 23 авг 2018 в 08:55

Не вижу каким образом это может быть актуально, кроме как запустить репликацию после атаки. Но для этого надо обладать совсем уж буйной фантазией. А даже если это произошло автоматически, то хранение реплики с одной точкой отката, это… кхм… странное решение…
По сути это тот же бкап, но лежащий не в сторонке, а на какой-то схд и готовый стартануть несколько быстрее, чем машина в бекапе.

dklm 23 авг 2018 в 09:01

реплика это не бэкап ;-) снепшот это также не бэкап ;-)

Loxmatiymamont 23 авг 2018 в 09:18

и рейд не бекап, и кластер не бекап, и ничто кроме бекапа не бекап, иначе не назывался бы он так ;)

behek 23 авг 2018 в 09:16

Репликация срабатывает по расписанию раз в несколько минут, и каждая дельта занимает место на СХД и является снепшотом на резервной машине. Хранить бесконечное количество реплик не получится.
Момент атаки можно легко пропустить и установить время её начала не всегда быстро и легко.
Так что, от крипторов только резервное копирование на удалённую площадку.

Loxmatiymamont 23 авг 2018 в 09:22

Это всё верно, хотя можно долго спорить про размер дельт, про разницу реплик на уровне схд и гипервизора, про количество хранимых реплик и т.д. Но мой изначальный посыл был про то, что сравнивать реплику и кластер совершенно некорректно. Они дополняют друг-друга, защищая от разных типов угроз и никак не взаимозаменимы.

behek 23 авг 2018 в 09:48

Не согласен, от проблем с СХД и отказа вычислительного кластера защищают оба решения.
И выбирать из них стоит отталкиваясь от стоимости вашего RTO\RPO.

NoOne 25 авг 2018 в 03:32

VMware Site Recovery Manager 6 с vSphere Replication каждые 15 минут для серверов приложений, СУБД — Oracle DataGuard.

Потому как данные терять нельзя, а сервера приложений меняются не так часто, и этого достаточно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий