Обновить
4K+
2
Руслан Контарев@Ryslanus

Лид команды Kubernetes/OKD в SberDevices

3
Рейтинг
Отправить сообщение

Аварийные учения в Kubernetes: выключили часть нод и проверили, переживут ли это сервисы

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели6.1K

Многие уверены, что если сервис поднят в кластере — значит, он защищён от любых потрясений инфраструктуры, и, если что-то случится, Kubernetes "сам всё поднимет". Но на деле есть нюанс. Реальная устойчивость и грамотный disaster recovery появляются только на стыке платформы, клиентской логики и конфигурации сервисов. А обнаружить узкие места возможно только во время инцидентов или плановых аварийных учений. Так мы и поступили: выключили 30% нод в production кластере и посмотрели, что будет.

В статье разберём — почему именно 30%, какие сбои и узкие места всплыли в ходе учений, а также какие сделали выводы и мы, как команда Kubernetes, и прикладные команды.

Читать далее

Информация

В рейтинге
1 438-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

DevOps-инженер, Инженер по доступности сервисов
Ведущий
Kubernetes
Docker
Git
Linux
Bash
Высоконагруженные системы
CI/CD