Search
Write a publication
Pull to refresh
3
0
Дмитрий Ганьжа @DGanzha

Technical writer at CROC Cloud Services

Send message

Добрый день, спасибо за интерес!

В двух словах ответить на вопрос вряд ли получится – важны нюансы. Но, как и обещали, готовим ещё статью, которая целиком будет посвящена тому, почему мы перешли обратно с Infiniband на Ethernet.

Спасибо за интерес!

Если говорить об отказоустойчивости сетевой фабрики, то отчасти про это написано в разделе "Засвеченная оптика". Могу сказать, что желаемых результатов по времени недоступности во время отработки оборудованием failover’а удалось добиться не сразу. Пришлось посидеть над конфигами, параметрами. Сейчас переключение трафика в штатном режиме происходит за доли секунды, что устраивает и нас, и наших клиентов.

Что касается полного отключения AZ, чтобы убедиться в управляемости облака, его работоспособности и консистентности после устранения разрыва:

  • полностью отключить AZ по сети в продуктиве мы, естественно, не можем, поскольку это затронет наших клиентов. На этапе планирования в лаборатории такие тесты, безусловно, проводились;

  • в тоже время мы периодически отключаем сервисы S3 (Ceph), внутренние базы данных (MongoDB), мониторинг и др. в одной из AZ при проведении профилактических работ и выполнении других задач, при этом сервисы продолжают работать в штатном режиме и восстановление по завершении работ происходит автоматически.

Information

Rating
Does not participate
Location
Россия
Works in
Date of birth
Registered
Activity