Статьи / Закладки / Профиль Turkin / Хабр

@Turkin

Пользователь

ПрофильСтатьиПостыНовостиКомментарии5

@kvaps 1 мар 2021 в 17:05

Ломаем и чиним etcd-кластер

7 мин

75K

Блог компании ÆnixKubernetes * DevOps * *nix * Системное администрирование *

etcd — это быстрая, надёжная и устойчивая к сбоям key-value база данных. Она лежит в основе Kubernetes и является неотъемлемой частью control-plane, именно поэтому критически важно уметь бэкапить и восстанавливать работоспособность как отдельных нод, так и всего etcd-кластера.

В предыдущей статье мы подробно рассмотрели перегенерацию SSL-сертификатов и static-манифестов для Kubernetes, а также вопросы связанные c восстановлением работоспособности Kubernetes-кластера. Эта статья будет посвящена целиком и полностью восстановлению etcd.

Поехали! ┬─┬ ノ( ゜-゜ノ)

+11

@n27051538 15 сен 2023 в 08:24

Prometheus Alert Hints

Сложный

17 мин

39K

Блог компании BercutВысоконагруженные системы * Системное администрирование * IT-инфраструктура * DevOps *

Туториал

Привет! Меня зовут Александр Голиков, я работаю в компании Bercut. Наша компания разрабатывает и развивает IT-решения для операторов цифровых услуг и мобильных сервисов. Коротко говоря, мы помогаем цифровизации бизнеса. В компании я занимаюсь виртуализацией, СХД, мониторингом, разработкой и интеграцией продуктов Bercut c операционными системами. Для агрегации данных и анализа мы используем Prometheus.

В этой статье рассмотрю одну из конфигураций Prometheus в отказоустойчивом режиме, познакомлю вас с Karma alert dashboard и продемонстрирую написание алертов. Напишу несколько простых включений Go Template и рассмотрю ситуацию, где такие включения противопоказаны. Продемонстрирую, как на основе меток можно сделать исключения из общих правил и обучу Prometheus самостоятельно чинить поломки.

Погнали!

+21

@RomanenkoDenys 1 мая 2020 в 08:07

Как использовать Prometheus для обнаружения аномалий в GitLab

10 мин

13K

Блог компании VKGit *

Перевод

Одной из базовых функций языка запросов Prometheus является агрегация временных рядов в режиме реального времени. Также язык запросов Prometheus можно использовать для обнаружения аномалий в данных временных рядов.

Команда Mail.ru Cloud Solutions перевела статью инженера команды инфраструктуры GitLab, где вы найдете примеры кода, которые сможете попробовать на своих системах.

Читать дальше →

+28

@skuchnyded 20 янв 2023 в 19:57

ТОП-10 экспортеров для Prometheus 2023

3 мин

32K

Системное администрирование * DevOps *

Из песочницы

Статья Основы мониторинга (обзор Prometheus и Grafana) оборвалась на самом интересном месте. Автор предложил искать и использовать актуальные экспортеры, а читатель такой – окей, где референс? Что ж, давайте рассмотрим топ-10 наиболее полезных экспортеров на начало 2023 года – возможно именно их вам не хватало, чтобы построить свою идеальную систему мониторинга!

@dmitriizolotov 25 мая 2022 в 11:23

Спокойный сон и крепкие нервы. Резервное копирование для Kubernetes. Часть 1

14 мин

7.6K

Блог компании OTUSБазы данных * DevOps * Kubernetes *

Как известно, системные администраторы делятся на 3 категории - кто еще не делает резервные копии, кто уже делает и кто уверен, что из них можно восстановиться. В нашу эпоху DevOps вопрос автоматизации управления резервным копирования стал еще более актуальным, поскольку каждая система предлагает свой уникальный способ создания (и восстановления) дампа и даже в пределах одной системы может быть множество разных способов хранения данных. В этой статье мы обсудим возможные стратегии и доступные технологические решения для создания резервных копий данных для развертываний в Kubernetes и поговорим о возможностях автоматизации и мониторинга процесса резервного копирования.

@dmitriizolotov 30 мая 2022 в 14:17

Все должно быть под контролем. Резервное копирование для Kubernetes. Часть 2

11 мин

4.4K

Блог компании OTUSIT-инфраструктура * Базы данных * DevOps * Kubernetes *

В первой части мы рассмотрели подходы к созданию резервных копий контейнеров в кластере Kubernetes с использованием restic над каталогом данных и относительно новых возможностей CSI для создания и восстановления мгновенных снимков. Пришло время поговорить о возможностях автоматизации управления резервными копиями, о мониторинге процесса и иных важных DevOps-задачах.

@ilya-lesikov 2 дек 2020 в 09:51

Продвинутая Helm-шаблонизация: выжимаем максимум

10 мин

50K

Блог компании ФлантDevOps * Kubernetes * Системное администрирование *

Стандартной Helm-библиотеки и привычных подходов к написанию Helm-чартов обычно хватает для автоматизации несложных приложений. Но когда количество и сложность Helm-чартов растут, то минималистичных Go-шаблонов и неоднозначной стандартной Helm-библиотеки быстро перестаёт хватать. В этой статье речь пойдет о том, как сделать ваши Helm-шаблоны гораздо более гибкими и динамичными, реализуя свои собственные «функции» в Helm, а также эксплуатируя tpl.

NB. Всё описанное было проверено с werf, но так как шаблоны в этой утилите практически идентичны Helm-шаблонам, то и всё нижеприведенное будет полностью или почти полностью совместимо с обычным Helm обеих версий (v2 и v3).

А теперь разберем, как получить от Helm-шаблонов всё, что можно… и даже всё, что нельзя!

Читать дальше →

+47

@driusha 6 апр 2023 в 11:00

Istio в разрезе: что умеет и не умеет самый популярный Service Mesh (обзор и видео доклада)

Сложный

15 мин

94K

Блог компании ФлантБлог компании Конференции Олега Бунина (Онтико)Kubernetes * DevOps * Системное администрирование *

В докладе я препарирую Istio, дабы понять, как он работает, какие у него подводные камни и как им правильно пользоваться.

Это мой второй доклад про Istio и Service Mesh. Первый я сделал на конференции Kuber Conf 2021: «Что ждать от внедрения Istio?». Рекомендую ознакомиться сначала с ним, будет несколько проще.

+67

@redhatrussia 14 фев 2019 в 07:55

Достать до звезд: Осваиваем операторы Ansible для управления приложениями в Kubernetes

9 мин

17K

Блог компании Red HatIT-инфраструктура * Kubernetes * Open source * Виртуализация *

Посмотрим, как использовать опубликованные в Ansible Galaxy роли (Role) в качестве операторов (Operator), управляющих приложениями в Kubernetes, и разберем это на примере создания оператора, который просто устанавливает приложение, гибко настраивая свое поведение в зависимости от среды.

Мы будем использовать Ansible Operator и модуль k8s, чтобы показать, как применять Ansible для создания Kubernetes-приложений.

Читать дальше: Осваиваем операторы Ansible для управления приложениями в Kubernetes

@Wimbo 11 мар 2019 в 14:00

Мониторинг ping'ов между узлами Kubernetes — наш рецепт

7 мин

10K

Блог компании ФлантСистемное администрирование * Kubernetes * DevOps *

Нередко при диагностике проблем в кластере Kubernetes мы замечаем, что иногда моросит* один из узлов кластера и, конечно же, происходит это редко и странно. Так мы пришли к необходимости в инструменте, который бы делал ping с каждого узла на каждый узел и отдавал результаты своей работы в виде метрик Prometheus. Нам бы оставалось лишь нарисовать графики в Grafana и быстро локализовать сбойный узел (и при необходимости убрать с него все pod'ы, после чего произвести соответствующие работы**)…

Читать дальше →

+37

@Khorn7sk 20 фев 2020 в 07:07

Прикручиваем ActiveDirectory авторизацию к Kubernetes c помощью Keycloak

7 мин

26K

Системное администрирование * Информационная безопасность * Kubernetes * DevOps * *nix *

Из песочницы

Данная статья написана с целью расширить уже существующую, но рассказывает про особенности связки именно с Microsoft ActiveDirectory, а так же дополняет ее.

В этой статье я расскажу как установить и настроить:

Keycloak — это проект с открытым исходным кодом. Который обеспечивает единую точку входа для приложений. Работает с множеством протоколов, в том числе с LDAP и OpenID которые нас интересуют.
Keycloak gatekeeper — реверс прокси приложения, позволяющее интегрировать авторизаию через Keycloak.
Gangway — приложение которе генерирует конфиг для kubectl с помощью которого через OpenID можно авторизоваться и подключиться к Kubernetes API.

Читать дальше →

@IDWarlock 15 июн 2021 в 07:00

Как оптимизировать ограничения ресурсов Kubernetes

5 мин

6.5K

Блог компании Timeweb CloudDevOps * Kubernetes *

Туториал

Перевод

Поиск оптимальных значений для ограничения ресурсов Kubernetes — непростая задача, поскольку вам нужно найти золотую середину между слишком жесткими и недостаточными ограничениями.

В этой статье, которая является продолжением серии статей о рациональном использовании ресурсов в Kubernetes, вы узнаете, как выбрать правильные ограничения ресурсов Kubernetes: от обнаружения контейнеров без каких-либо ограничений до определения оптимальных параметров, которые вы должны установить в своем кластере.

Prometheus — одно из самых популярных решений для мониторинга кластеров Kubernetes. Поэтому каждый шаг в этом руководстве содержит примеры запросов PromQL.

@YaGolub 25 июн 2020 в 13:02

Собираем логи с Loki

13 мин

198K

Блог компании BadooDevOps * Kubernetes * Open source * Системное администрирование *

Мы в Badoo постоянно мониторим свежие технологии и оцениваем, стоит ли использовать их в нашей системе. Одним из таких исследований и хотим поделиться с сообществом. Оно посвящено Loki — системе агрегирования логов.

Loki — это решение для хранения и просмотра логов, также этот стек предоставляет гибкую систему для их анализа и отправки данных в Prometheus. В мае вышло очередное обновление, которое активно продвигают создатели. Нас заинтересовало, что умеет Loki, какие возможности предоставляет и в какой степени может выступать в качестве альтернативы ELK — стека, который мы используем сейчас.

+41

@edeshina 21 дек 2022 в 14:58

Основы автоматизации в Ansible: роли и сценарии

6 мин

64K

Блог компании СлёрмСистемное администрирование * IT-инфраструктура * Учебный процесс в ITDevOps *

Ansible — инструмент управления конфигурациями. Задачи, которые решаются с его помощью, часто повторяются у разных людей и команд. Как и в случае программирования, где общий код выделяют в библиотеку, Ansible выделяет повторяющиеся вещи в роли. В статье объясним, в чём основная идея ролей, а также подробно разберём процесс их создания.

@Wimbo 21 ноя 2017 в 07:29

Что происходит в Kubernetes при запуске kubectl run? Часть 1

11 мин

24K

Блог компании ФлантDevOps * Kubernetes * Системное администрирование *

Перевод

Прим. перев.: Этот материал, озаглавленный в оригинале как «What happens when… Kubernetes edition!» и написанный Jamie Hannaford из компании Rackspace, является отличной иллюстрацией работы многих механизмов Kubernetes, которые зачастую скрыты от нашего глаза, но весьма полезны для лучшего понимания устройства этой Open Source-системы, алгоритма работы и взаимосвязей её компонентов. Поскольку вся статья весьма объёмна, её перевод разбит на две части. В первой речь идёт про работу kubectl, kube-apiserver, etcd и initializers.

P.S. Некоторые оригинальные ссылки на код в master-ветках были заменены на последние к моменту перевода коммиты, чтобы актуальность номеров строк, к которым отсылает автор, сохранялась долгое время.

Представим, что я хочу задеплоить nginx в кластере Kubernetes. Я введу в терминале нечто такое:

kubectl run --image=nginx --replicas=3

… и нажму на Enter. Через несколько секунд увижу 3 пода с nginx, распределённые по всем рабочим узлам. Работает — словно по волшебству, и это здорово! Но что на самом деле происходит под капотом?

Читать дальше →

+23

@a1ekseevna 9 дек 2022 в 12:12

Персональный план профессионального развития: как построить его без мук и понять, нужен ли он вообще

5 мин

34K

Блог компании SelectelIT-компанииКарьера в IT-индустрии

Технотекст 2022

В большинстве IT-компаний сейчас сезон ревью и профессиональной рефлексии: что я сделал за год и вырос ли профессионально? Ответить на эти экзистенциальные вопросы проще, если у вас есть PDP, или персональный план развития. Это инструмент, который помогает системно и экологично по отношению к себе двигаться к цели.

Я — Лена Насыбуллина, методист продуктовых образовательных программ в Selectel. В этом тексте расскажу, чем полезен PDP и как его составить.

Читать дальше →

+39

@Bright_Translate 9 дек 2022 в 13:00

Почему стоит использовать лимиты CPU в Kubernetes

8 мин

11K

Блог компании RUVDS.comРаспределённые системы * Облачные сервисы * Облачные вычисления * Kubernetes *

Перевод

Эту статью я написал в противовес статье “For the love of god, stop using CPU limits on Kubernetes” (Ради всего святого, прекратите использовать в Kubernetes лимиты CPU).

Мне та статья понравилась, и я считаю её хорошим чтивом. Более того, я согласен с высказанными в ней рекомендациями относительно установки объёмов запрашиваемой памяти и её лимитов для контейнеров, а также с советом всегда устанавливать запросы на выделение CPU.

При этом моё несогласие, явно выраженное в противоположном по смыслу заголовке, связано с той категоричностью, с которой в итоге автор рекомендует не устанавливать лимиты потребления CPU.

Читать дальше →

+35

@Rast1234 17 окт 2022 в 13:08

Человеческим языком про метрики 4: PromQL

15 мин

163K

Блог компании Точка БанкАнализ и проектирование систем * IT-инфраструктура * DevOps * Микросервисы *

Туториал

Это четвертая, финальная часть из цикла статей про метрики. В первой — вводной — я рассказал, почему метрики для сервисов устроены именно так, чем они отличаются от логов, и какую задачу решают. Во второй разобрались с форматом и типами метрик. В третьей — с перцентилями. Теперь, наконец, можно пойти и вывести что-нибудь на графики! На этот раз будет более хардкорно.

+12

@edeshina 2 дек 2022 в 07:40

RabbitMQ: терминология и базовые сущности

8 мин

153K

Блог компании СлёрмВысоконагруженные системы * Системное администрирование * Программирование * IT-инфраструктура *

При работе с инструментом важно знать теоретические основы. Во-первых, вам будет значительно проще искать ответы на вопросы в Google и понимать официальную документацию. Во-вторых, при обращении в профильные чаты вы будете называть вещи своими именами, что позволит быстрее получить ответ (или вообще получить его: если ваши слова и термины будут непонятны другим, вряд ли они смогут ответить вопрос).

Алексей Барабанов, IT-директор «Хлебница» и спикер курса «RabbitMQ для админов и разработчиков», подготовил конспект, который поможет понять терминологию и базовые сущности RabbitMQ.

+37

@chemtech 27 мая 2020 в 07:46

Управление высокодоступными PostgreSQL кластерами с помощью Patroni. А.Клюкин, А.Кукушкин

62 мин

202K

DevOps * PostgreSQL * SQL * Базы данных * Системное администрирование *

Туториал

Расшифровка доклада/tutorial "Управление высокодоступными PostgreSQL кластерами с помощью Patroni". А.Клюкин, А.Кукушкин

Patroni — это Python-приложение для создания высокодоступных PostgreSQL кластеров на основе потоковой репликации. Оно используется такими компаниями как Red Hat, IBM Compose, Zalando и многими другими. С его помощью можно преобразовать систему из ведущего и ведомых узлов (primary — replica) в высокодоступный кластер с поддержкой автоматического контролируемого (switchover) и аварийного (failover) переключения. Patroni позволяет легко добавлять новые реплики в существующий кластер, поддерживает динамическое изменение конфигурации PostgreSQL одновременно на всех узлах кластера и множество других возможностей, таких как синхронная репликация, настраиваемые действия при переключении узлов, REST API, возможность запуска пользовательских команд для создания реплики вместо pg_basebackup, взаимодействие с Kubernetes и т.д.

Слушатели мастер-класса подробно узнают, как работает Patroni, получат практические навыки настройки высокодоступных кластеров на его основе, познакомятся с различными дополнительными возможностями и поучаствуют в диагностике проблем. Будут рассмотрены следующие темы:

область применения: какие задачи HA успешно решаются Patroni
обзор архитектуры
создание тестового кластера
утилита patronictl
изменение конфигурации PostgreSQL для кластера, управляемого Patroni
мониторинг с помощью API
подходы к переключению клиентов
дополнительные возможности: ручное переключение, перезагрузка по расписанию, режим паузы
настройка синхронной репликации
расширяемость и универсальность
частые ошибки и их диагностика

+12

1 2

4 5 ...

8 9