Комментарии 3
Добрый день! Спасибо за статью. В тексте достаточно часто упоминается отказоустойчивость, однако конкретных примеров инцидентов\тестов нет. Можете рассказать какие тесты проводились в рамках проверки отказоустойчивости?
Спасибо за интерес!
Если говорить об отказоустойчивости сетевой фабрики, то отчасти про это написано в разделе "Засвеченная оптика". Могу сказать, что желаемых результатов по времени недоступности во время отработки оборудованием failover’а удалось добиться не сразу. Пришлось посидеть над конфигами, параметрами. Сейчас переключение трафика в штатном режиме происходит за доли секунды, что устраивает и нас, и наших клиентов.
Что касается полного отключения AZ, чтобы убедиться в управляемости облака, его работоспособности и консистентности после устранения разрыва:
полностью отключить AZ по сети в продуктиве мы, естественно, не можем, поскольку это затронет наших клиентов. На этапе планирования в лаборатории такие тесты, безусловно, проводились;
в тоже время мы периодически отключаем сервисы S3 (Ceph), внутренние базы данных (MongoDB), мониторинг и др. в одной из AZ при проведении профилактических работ и выполнении других задач, при этом сервисы продолжают работать в штатном режиме и восстановление по завершении работ происходит автоматически.
Как мы подключили третью зону доступности в облаке и наконец-то стали деплоить сервисы в виртуалках