Статьи / Профиль gigaparsec / Хабр

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Средний

17 мин

10K

Блог компании VK TechБлог компании VKIT-инфраструктура * Системное администрирование * Облачные вычисления *

Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса.

Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности.

В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

+42

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Информация

Специализация