gitorion Nov 18 2024 at 06:03

CI/CD Kubernetes платформа Gitorion. Highly Available исполнение

Medium

5 min

1.6K

Gitorion corporate blogSystem administration*IT Infrastructure*DevOps*Kubernetes*

Review

Comments 11

chupasaurus Nov 18 2024 at 06:21

В случае падения ведущего дата центра, в ведомом дата центре следует выполнить следующие действия

На этом слово Highly можно удалять.

gitorion Nov 18 2024 at 11:22

Все действия по переключению в выживший дата центр автоматизированы в скриптах и происходят довольно быстро. Какое же слово нам использовать вместо Highly? )

gitorion Nov 18 2024 at 18:31

Пришлось пойти на небольшой downtime в пользу снижения затрат на инфраструктуру, чтобы построить решение на два дата центра вместо трех. Если мы не ошибаемся, Highly Available это все-таки минимизация времени незапланированных простоев.

chupasaurus Nov 19 2024 at 05:25

Время на реакцию и действия умножить на 2 потенциальных инцидента в год (а их легко может быть больше) и вот уже в 4 девятки вписаться вряд ли получится. Даже если скрипты отрабатывают за секунду, наличие необходимости реагировать сотруднику очень быстро понижает доступность.

gitorion Nov 19 2024 at 08:53

Все верно! Мы используем DRBD без кластерных файловых систем для синхронизации NAS и побоялись, что при каких то кратковременных переключенияx автоматикой словим split-brain. Поэтому оставили аварийные переключения под присмотром человека.

brownbrown Nov 18 2024 at 10:02

>...модули плоскости управления Kubernetes.

Подскажите, что такое плоскость управления?

gitorion Nov 18 2024 at 10:09

Компоненты Kubernetes | Kubernetes модули в пунктирном прямоугольнике Kubernetes Control Plane

shurup Nov 19 2024 at 04:53

Это не самый удачный перевод control plane, который был когда-то давно принесён в русскоязычную версию документации Kubernetes, но мы от него отказались (в пользу «управляющего слоя»). Хотя вижу, что осталось ещё [как минимум] одно упоминание по приведённой ссылке — пройдусь ещё раз grep'ом, чтобы избавиться от этого.

gitorion Nov 19 2024 at 09:02

Спасибо, что поправили! Теперь будем использовать термин "управляющий слой" вместо "плоскость управления". Похоже еще одно упоминание в документации осталось вот тут Компоненты Kubernetes | Kubernetes

eigrad Nov 20 2024 at 17:07

PV над NFS... Ну допустим, хотя применимость весьма ограничена, не знаю что там ваши компоненты делают. Отказоустойчивость NFS через DRBD? Тут уже стоит хорошенько задуматься. DRBD между ДЦ - а вы проверяли как хорошо это работает? Обычно это ужасная идея.

2 зоны для отказоустойчивой системы? Окей, раз переключение вручную. Но если переключение вручную, то может это уже disaster recovery и стоит рассмотреть более простые и надёжные инструменты с чуть худшим RPO? Насколько это критично для CI/CD?

Почему не запустить три копии системы в разных ДЦ, и не реализовать масштабируемость и отказоустойчивость на прикладном уровне, а не на уровне платформы?

gitorion Nov 24 2024 at 12:31

Про требования DRBD к пропускной способности сети, пожалуй, стоило упомянуть в статье. Мы тестировали скорость записи на DRBD-разделы для двух нод, разнесенные в разные дата центры. iperf между дата центрами показал 150Kbps, а ping 38ms. В синхронном режиме репликации "C" скорость записи на DRBD-раздел составила 12MB/s, в асинхронном режиме "B" - 26MB/s и в асинхронном режиме "A" - 95MB/s. Далее можно экстраполировать и прикинуть, какая пропускная способность сети потребуется, чтобы достичь скорости записи HDD или SSD.

disaster recovery - это точное название тому, что мы спроектировали. Набор инструментов был заранее задан.

3 копии в разных ДЦ - это верное решение, но у нас изначально задумка была, сделать проще и дешевле. На уровне приложений пока не удается реализовать отказоустойчивость - Gitea/Forgejo лочит файл и не дает запустить вторую реплику в соседнем дата центре.