Комментарии / Профиль dbraincloud / Хабр

Пользователь

ПрофильСтатьи28ПостыНовости5Комментарии16

Переход с MaaS на Metal³: зачем, почему, что получилось

Добрый день! Вспомогательный кластер используется не только для нужд деплоя, но и для решения других задач и может обслуживать несколько продакшен кластеров. Таким образом не используются лимитированные ресурсы рабочего кластера. А масштабируемость вспомогательного кластера позволяет подстраиваться под задачу и регулировать нагрузку.

Переход с MaaS на Metal³: зачем, почему, что получилось

@dbraincloud 23 июл в 07:38

Уже имеющееся оборудование занято другими задачами.

Переход с MaaS на Metal³: зачем, почему, что получилось

@dbraincloud 22 июл в 13:45

Добрый день! В данном случае речь идет о вспомогательном кластере, предназначенном для обслуживания нескольких отдельных производственных кластеров.

VictoriaMetrics: нюансы внедрения в облачную платформу

@dbraincloud 3 мар в 07:45

Добрый день!

Мы исползовали Pushgateway, когда для мониторинга на платформе стоял Prometheus. С переходом на VictoriaMetrics оставили и pushgateway как альтернативу для короткоживущих метрик.

Внедрение RabbitMQ в облачную платформу: проблемы и решения

@dbraincloud 22 янв в 09:36

Добрый день! Мы предоставили наиболее релевантные для нас скриншоты, к сожалению, не имеем возможности показать все нюансы.

Выбор операционной системы для серверных решений: ключевые аспекты

@dbraincloud 10 янв в 10:57

Добрый день! Сложность перехода - один из ключевых моментов выбора. Мы рассматривали все доступные варианты ОС и по совокупности факторов выбрали наиболее подходящую для наших целей (указали в статье).

Apache Airflow: нестандартное применение

@dbraincloud 2 дек 2024 в 12:15

Добрый день! Примеры тестов - это наши наработки, которые в общий доступ мы не даем. Увидеть примеры тестов можно при эксплуатации платформы dBrain.

ClickHouse в несколько кликов

@dbraincloud 15 мая 2024 в 09:21

Спасибо, что вниматели прочитали статью. Уточнили формулировку.

Как ускорить кластер Kubernetes на 100 тысяч подов в 10 раз

@dbraincloud 14 мар 2024 в 04:53

Спасибо!

Как ускорить кластер Kubernetes на 100 тысяч подов в 10 раз

@dbraincloud 13 мар 2024 в 15:40

"Как балансировщики нагрузок узнают IP пода куда направлять трафик"?
- По лейблам

"Более интересен overcommit по памяти. Видел сценарий, когда обычная команда grep убивала все поды на ноде посредством OOM killer. При memory overcommit = 0 такого не происходит".
- По памяти: overcommit практически не используем, в редких случаях на тестовых средах это допустимо.

"Уточню по ресурсы подов. Допускаете ли разные request и limits по памяти или по процессору? Видел рекомендации, что по памяти request и limit должны быть одинаковые, а по процессору нужно иметь request (желательно целочисленный),а limit опустить".
- Аналогично предыдущему ответу: допускаются все возможные варианты и их комбинации в зависимости от поставленной задачи - надежность vs экономия ресурсов.

"Используете ли Rancher?"
- Нет, наша платформа лучше:)

Как ускорить кластер Kubernetes на 100 тысяч подов в 10 раз

@dbraincloud 13 мар 2024 в 08:05

В кластере более 600 нод, они разделены на роли и сконфигурированы под конкретные задачи, например, есть ноды с GPU. У нод до 2Тб оперативной памяти и 256 потоков.

Для мастеров выделено от 3 до 9 нод, при этом часть из их выполняет и другие роли, например, мониторы Ceph. Все ноды имеют как минимум тейнты с ролями сервера.

На больших продакшен кластерах квоты неймспейсов не используем, но надо учесть, что там никто ничего не создает без участия CI/CD пайплайнов, которые предварительно проходят все стадии тестирования на других окружениях.

Подробнее о системах мониторинга и логирования можно почитать в статьях блога dBrain.cloud (тут и тут). У нас есть собственные контроллеры, проставляющие необходимые аннотации в определенные ресурсы, о чем мы также уже рассказывали.

Как правило, для больших кластеров балансировка осуществляется либо через сервисы типа ClusterIP (внутри кластера), либо через LoadBalancer / Ingress для входящего трафика. IP подов используются только для работы механизмов cluster discovery и только в составе headless сервисов. NodePort вообще не используем, т.к. это не очень хорошая практика. Но клиенты при желании могут использовать сервисы типа NodePort.

SWAP везде отключен, overcommit, особенно по CPU, допускается использовать, если пики нагрузки на различные типы микросервисов разнесены во времени.

Что касается рекомендаций: необходимо следить за своим приложением и выставлять согласно результатам нагрузочного тестирования.

Что делать, когда кластер превращается в тыкву?

@dbraincloud 13 фев 2024 в 13:51

Это только пример. Приведенные данные не означают, что мы используем такой объем. Но на их месте могут быть конфигмапы, репликасеты или ивенты.

Что делать, когда кластер превращается в тыкву?

@dbraincloud 13 фев 2024 в 13:51

Мы смотрели в сторону kine, но есть много нюансов. В общем случае из-за выбора баз получалось медленнее, чем на etcd, а ресурсов при тех же значениях rps потребляется больше. Да и реализовывать key-value логику на реалиционной базе не лучшая затея. Сейчас в разработке решение по типу kine только для redis, но результаты пока что требуют доработок.

DevOps спит, консоль работает. Как сократить путь от разработки до внедрения приложения

@dbraincloud 11 июл 2023 в 11:02

Спасибо за обратную связь. Вы можете протестировать нашу консоль, отправив заявку на сайте официального дистрибьютора платформы.

-4

Логировали, логировали, да вылогировали. Почему мы сменили EBK на Loki

@dbraincloud 20 июн 2023 в 13:25

Спасибо за обратную связь. Каких деталей не хватило? О чем рассказать в следующих публикациях?

Внедрение баз данных с бэкапированием и репликацией при помощи консоли dBrain. Как это работает

@dbraincloud 27 апр 2023 в 15:23

Спасибо, уточнили формулировку.