Как стать автором
Обновить

Как мы подключили третью зону доступности в облаке и наконец-то стали деплоить сервисы в виртуалках

Время на прочтение11 мин
Количество просмотров2.9K
Всего голосов 18: ↑17 и ↓1+18
Комментарии3

Комментарии 3

Добрый день! Спасибо за статью. В тексте достаточно часто упоминается отказоустойчивость, однако конкретных примеров инцидентов\тестов нет. Можете рассказать какие тесты проводились в рамках проверки отказоустойчивости?

Спасибо за интерес!

Если говорить об отказоустойчивости сетевой фабрики, то отчасти про это написано в разделе "Засвеченная оптика". Могу сказать, что желаемых результатов по времени недоступности во время отработки оборудованием failover’а удалось добиться не сразу. Пришлось посидеть над конфигами, параметрами. Сейчас переключение трафика в штатном режиме происходит за доли секунды, что устраивает и нас, и наших клиентов.

Что касается полного отключения AZ, чтобы убедиться в управляемости облака, его работоспособности и консистентности после устранения разрыва:

  • полностью отключить AZ по сети в продуктиве мы, естественно, не можем, поскольку это затронет наших клиентов. На этапе планирования в лаборатории такие тесты, безусловно, проводились;

  • в тоже время мы периодически отключаем сервисы S3 (Ceph), внутренние базы данных (MongoDB), мониторинг и др. в одной из AZ при проведении профилактических работ и выполнении других задач, при этом сервисы продолжают работать в штатном режиме и восстановление по завершении работ происходит автоматически.

Благодарю за развернутый ответ !

Зарегистрируйтесь на Хабре, чтобы оставить комментарий