В двух словах ответить на вопрос вряд ли получится – важны нюансы. Но, как и обещали, готовим ещё статью, которая целиком будет посвящена тому, почему мы перешли обратно с Infiniband на Ethernet.
Если говорить об отказоустойчивости сетевой фабрики, то отчасти про это написано в разделе "Засвеченная оптика". Могу сказать, что желаемых результатов по времени недоступности во время отработки оборудованием failover’а удалось добиться не сразу. Пришлось посидеть над конфигами, параметрами. Сейчас переключение трафика в штатном режиме происходит за доли секунды, что устраивает и нас, и наших клиентов.
Что касается полного отключения AZ, чтобы убедиться в управляемости облака, его работоспособности и консистентности после устранения разрыва:
полностью отключить AZ по сети в продуктиве мы, естественно, не можем, поскольку это затронет наших клиентов. На этапе планирования в лаборатории такие тесты, безусловно, проводились;
в тоже время мы периодически отключаем сервисы S3 (Ceph), внутренние базы данных (MongoDB), мониторинг и др. в одной из AZ при проведении профилактических работ и выполнении других задач, при этом сервисы продолжают работать в штатном режиме и восстановление по завершении работ происходит автоматически.
Добрый день, спасибо за интерес!
В двух словах ответить на вопрос вряд ли получится – важны нюансы. Но, как и обещали, готовим ещё статью, которая целиком будет посвящена тому, почему мы перешли обратно с Infiniband на Ethernet.
Спасибо за интерес!
Если говорить об отказоустойчивости сетевой фабрики, то отчасти про это написано в разделе "Засвеченная оптика". Могу сказать, что желаемых результатов по времени недоступности во время отработки оборудованием failover’а удалось добиться не сразу. Пришлось посидеть над конфигами, параметрами. Сейчас переключение трафика в штатном режиме происходит за доли секунды, что устраивает и нас, и наших клиентов.
Что касается полного отключения AZ, чтобы убедиться в управляемости облака, его работоспособности и консистентности после устранения разрыва:
полностью отключить AZ по сети в продуктиве мы, естественно, не можем, поскольку это затронет наших клиентов. На этапе планирования в лаборатории такие тесты, безусловно, проводились;
в тоже время мы периодически отключаем сервисы S3 (Ceph), внутренние базы данных (MongoDB), мониторинг и др. в одной из AZ при проведении профилактических работ и выполнении других задач, при этом сервисы продолжают работать в штатном режиме и восстановление по завершении работ происходит автоматически.