Pull to refresh
8K+
4
Тимофей Бирюков@gigaparsec

User

38
Rating
2
Subscribers
Send message

Как построить и проверить катастрофоустойчивость в облаке: от плана до Game Day

Level of difficultyMedium
Reading time17 min
Reach and readers9.1K

Довольно много компаний при работе в облаке выстраивают катастрофоустойчивость, ориентируясь на условные «лучшие практики»: составляют планы, предусматривают резервные площадки, настраивают репликацию. Вместе с тем во время реальных инцидентов многие сталкиваются с тем, что все предусмотренное не работает или работает не так, как ожидалось: восстановление занимает часы вместо минут, данные теряются в критическом для бизнеса объеме, а команды оказываются не готовы к действиям в условиях стресса.

Причина часто кроется в том, что меры обеспечения катастрофоустойчивости либо обеспечиваются формально («чтобы было»), либо проектируются без учета полного цикла рисков — от технических ограничений до организационной готовности.

В статье разберем, как проектировать решения, которые переживают не отдельные сбои, а крупные аварии.

Читать далее

Information

Rating
229-th
Works in
Registered
Activity

Specialization

DevOps-инженер, Архитектор программного обеспечения