Pull to refresh
4K+
2
Руслан Контарев@Ryslanus

Лид команды Kubernetes/OKD в SberDevices

3
Rating
Send message

Аварийные учения в Kubernetes: выключили часть нод и проверили, переживут ли это сервисы

Level of difficultyMedium
Reading time11 min
Reach and readers6.2K

Многие уверены, что если сервис поднят в кластере — значит, он защищён от любых потрясений инфраструктуры, и, если что-то случится, Kubernetes "сам всё поднимет". Но на деле есть нюанс. Реальная устойчивость и грамотный disaster recovery появляются только на стыке платформы, клиентской логики и конфигурации сервисов. А обнаружить узкие места возможно только во время инцидентов или плановых аварийных учений. Так мы и поступили: выключили 30% нод в production кластере и посмотрели, что будет.

В статье разберём — почему именно 30%, какие сбои и узкие места всплыли в ходе учений, а также какие сделали выводы и мы, как команда Kubernetes, и прикладные команды.

Читать далее

Information

Rating
1,441-st
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

DevOps-инженер, Инженер по доступности сервисов
Ведущий
Kubernetes
Docker
Git
Linux
Bash
Высоконагруженные системы
CI/CD