Comments / Profile of Nastradamus / Habr

Виктор Ягофаров @Nastradamus

DevOps, Kubernetes, Monitoring, Postgres, Golang

Profile Publications 9Comments 837Bookmarks 170

Kubernetes monitoring от простого к сложному (Николай Храмчихин)

Nastradamus Oct 29 2021 at 11:54

Спасибо за статью! Отлично подходит как справочник-напоминалка и для тех, кто это уже всё настраивал :)

Look

Clickhouse & Grafana: история успеха одних алертов

Nastradamus Oct 28 2021 at 12:44

Вы не поверите, но у нас почти все разработчики еще и в DevOps-практики умеют :)

Look

Grafana as code, или как я перестал кликать мышкой в UI и полюбил grafonnet

Nastradamus Sep 13 2021 at 23:14

Спасибо за статью. Жду продолжения с более сложными примерами.

А можно ли как-то сделать такое автоматизированно? : чтобы для каждой команды генерился базовый дашборд, но команды разработки могли бы сами его дополнять дополнительными графиками. При этом, чтобы была возможность перегенерить существующие, не сломав добавленные руками.

Look

Трудные коллеги

Nastradamus Jul 22 2021 at 12:46

Автор точно не гуманитарий :)

Look

Почему я советую людям не учить Ansible. Переход с Configuration Synchronization на Immutable infra. Андрей Девяткин

Nastradamus May 12 2021 at 13:59

Да, про плейбуки я именно это и имел в виду )

Look

Почему я советую людям не учить Ansible. Переход с Configuration Synchronization на Immutable infra. Андрей Девяткин

Nastradamus May 12 2021 at 12:18

Насчет «спирали страха автоматизации» и Puppet/Chief. По-моему, как раз автоматическая pull-модель этих инструментов внушала страх что-то сделать руками: через полчаса пришел puppet apply и всё вернул как было.

Хаос появился как раз с популяризацией Ansible, которая обусловлена более низким порогом вхождения: вместо единой конфигурации имеем множество «ролей», которые позволяют обособленно делать различные изменения с одним и тем же инстансом.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 11 2020 at 14:45

ELRepo, так и есть. Я бы еще от XFS в польщу ext4 отказался.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 10 2020 at 22:41

Увы, это уже не ко мне. Передал вопрос разрабам =)

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 10 2020 at 22:40

Ну обычное LT ядро от CentOS. На момент обновления ядер — было последним. Несколько месяцев им. Ставим то, что не глючит. У поздних 3x были проблемы с XFS (тормозило спонтанно на k8s нодах) и тоже самое было на 5.x ядрах последних от CentOS + еще были какие-то глюки. Оставили то, что позволяло спать спокойно.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 10 2020 at 22:05

Для меня является недостатком то, что необходимо писать такую логику.

Чтобы откатить настройки роли, нужно смерджить в гит или нажать специальную кнопку в CI-системе, которая откатит состояние на предыдущий коммит.
Или самое тупое: подготовить заранее PR для отката.

Мы каким-то разным ансиблом пользуемся )

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 10 2020 at 15:36

CentOS 7, 4.4.2xx ядра (периодически обновляем на последнее ядро LT-ветки).

Систему тюним при заливке при помощи Ansible: там штук 50 sysctl меняем.

kubelet'ы тоже тюним — их опции выстраданы годами.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 10 2020 at 15:34

Atomic в Helm 2 появился чуть ли не после выхода Helm 3, ЕМНИП. Не проверяли — проще было сразу перейти на Helm 3 и выпилить все tiller'ы из всех нэймспейсов.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 10 2020 at 15:31

А что будет в случае проблем после обновления, но если его заметили в следующий день, т.е. в воскресенье?

Обычно если что-то не заметили сразу, то это не является чем-то сильно критичным.
У нас есть дашборды, показывающие «где что болит» и детальные дашборды по разным компонентам куба. Пропустить «большой косяк» довольно сложно, а мелкие косяки могут починить и ночные админы, либо утром сами починим, если не критично.

Деплой и настройка дженкинса автоматизировано?

Я не большой спец по Дженкинсу, недавно стало писать под него. Может я неправильно понял вопрос.
Дженкинс у нас только для Ops-проектов и руками завести пайплайн раз в 2 недели не проблема

ИМХО, у ansible недостатков много

Почти полностью согласен. Производительность Kubespray довольно ужасна, хотим слезть с него.

Как с безопасностью?

Довольно много работаем над этим. Не всё идеально, но лучше чем обычно (что я вижу в других компаниях). Подробности раскрыть не могу.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 10 2020 at 15:16

Попросил коллег ответить на ваш вопрос =) Скорее всего ответ где-то кроется в первых постах нашей компании на Хабре.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 10 2020 at 10:57

Если там выбрать namespace, отличный от kube-system — то там будет все нормально.
Просто чтобы живые имена подов не показывать, я выбрал такой ns.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 8 2020 at 12:04

Про визуализацию мониторинга через Ранчер ничего не скажу. Сам Ранчер нам не интересен — его фичи либо уже у нас есть, либо не интересны. Графана — стандарт индустрии, хорошая документация и все ее умеют. Она была до Кубера и наверное будет когда его не станет :) Хотелось бы чтобы она просто не тормозила хотя бы на топовых компах на той же community Kubernetes Dashboard.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 8 2020 at 11:58

С самим Docker проблем нет. Есть вопросы к скорости развития самого Docker: он просто не развивается и долгожданных нужных фич вроде лимитирования по IOPS, cgroups v2 — мы до сих пор не получили. В среднем сейчас 40-70 подов на ноду (до 100 иногда доходит).

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 7 2020 at 15:36

Но это скорее к бизнесу вопрос. Мне нравится облака делать, которые меня не будят по ночам.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 7 2020 at 15:36

ДомКлик сделали сервис выдачи ипотеки онлайн. До этого был мрак. 49% доли рынка недвижимости — это не только клиенты Сбера.

Look

Kubernetes в ДомКлик: как спать спокойно, управляя кластером на 1000 микросервисов

Nastradamus Aug 7 2020 at 14:58

Мы ревьювим чарты, да. Дашборд готовят разработчики. Документация — на воли совести создателя сервиса. Не страшно если ее вообще нет: infrastructure as a code.

Look

2 3 ...

41 42