Комментарии / Профиль lyova / Хабр

SRE

Подписчики

ПрофильСтатьи7Посты1НовостиКомментарии20

Как мы в Авито автоматически лечим ноды в Kubernetes

lyova 30 сен 2025 в 18:42

Для новых кластеров используем. Но иногда пересоздание не поможет (например, при аппаратных неисправностях), а иногда избыточно (например, когда нужно просто рестартануть один из компонентов)

-1

Как мы в Авито автоматически лечим ноды в Kubernetes

lyova 30 сен 2025 в 09:57

Привет!

В NMO не контрибьюили, поскольку в результате наших правок поменялась сама концепция инструмента - есть сомнения, что она зайдет авторам. Наверное, стоит подумать о том, чтобы релизнуть как форк.
На ранних этапах была пара историй, когда связка инструментов работала не так, как ожидалось. Наиболее запомнившаяся была вызвана тем, NPD после ребута не мог заехать на ноду из-за taints, к которым у него не было tolerations. В результате conditions не обновлялись, и выздоровевшая нода по-прежнему считалась больной и висела закордоненной. Но мы заранее сделали алерт на это и быстро нашли причину. А такого, чтобы Auto Healing ухудшал ситуацию, не случалось. Я довольно много внимания уделил как раз тому, чтобы от механик не было вреда, когда все и так плохо. В худшем случае они просто отключаются.

Удобные дашборды для быстрой диагностики

lyova 7 фев 2025 в 09:13

Привет! Опубликовал открытую версию дашборда: https://grafana.com/grafana/dashboards/22820-node-status/

Удобные дашборды для быстрой диагностики

lyova 3 янв 2025 в 11:49

Хорошая идея! В свободное время постараюсь построить что-нибудь на основе только kube-state-metrics.

Удобные дашборды для быстрой диагностики

lyova 18 дек 2024 в 19:43

Дашборды мы не выкладывали, они слишком завязаны на нашу специфику, поэтому существенная часть панелей все равно не работала бы. Я привел их просто как примеры того, как можно реализовать предложенные подходы.

Как мы ищем деградации на нодах в кластерах Kubernetes

lyova 17 окт 2024 в 10:09

Речь про Cluster API - есть management-кластер, который управляет кластерами с рабочей нагрузкой. Описание декларативное через CRD.

Как мы ищем деградации на нодах в кластерах Kubernetes

lyova 4 окт 2024 в 10:15

Да, стоило бы закрывать сразу, хотя в этом конкретном случае это вряд ли может вызвать проблемы.

Как мы ищем деградации на нодах в кластерах Kubernetes

lyova 3 окт 2024 в 09:27

Мы сейчас в процессе переезда с 1.20 на 1.29 и новую схему управления кластерами, которая позволяет легко обновлять k8s.

Корпоративное хранилище секретов StarVault — первая в России полноценная альтернатива HashiCorp Vault

lyova 6 мая 2024 в 16:35

В лицензии Vault дополнительно к самой BSL, есть Additional Use Grant, то есть дополнительные по сравнению с BSL правомочия. В этом разделе прямо сказано, что можно использовать Vault в продакшене, если не берешь денег с третьих лиц, то есть не конкурируешь с платной лицензией HashiCorp.

You may make production use of the Licensed Work, provided
Your use does not include offering the Licensed Work to third
parties on a hosted or embedded basis in order to compete with
HashiCorp's paid version(s) of the Licensed Work.

Вот тут HashiCorp пишет, что изменениями будут затронуты только конкурирующие с ними организации.

Что происходит, когда вы создаёте Pod в Kubernetes?

lyova 2 янв 2024 в 12:25

Взаимодействие компонентов k8s описано как-то не очень. Вот схема, на которой более подробно показано, что происходит при создании пода внутри Kubernetes.

Как я создавал homelab для учебы на DevOps-инженера

lyova 18 ноя 2022 в 10:42

Так и я ушел из РФ

Как я создавал homelab для учебы на DevOps-инженера

lyova 16 ноя 2022 в 15:15

Если бы я выбирал что-то просто для поднятия домашних сервисов, то наверное остановился бы на PVE. У меня же основная цель была в приобретении навыков работы с entreprise решениями (поэтому ESXi и RHEL) и освоении DevOps-инструментов. Я исходил из того, что чем меньше будет упрощений, тем лучше. Можно запускать контейнеры в GUI, но лучше освоить команды docker в CLI, потому что именно их будут спрашивать на собеседовании. И если бэкап из коробки, то какая мотивация разбираться с тем, как это сделать без готовых решений? То есть мой выбор в этом полностью подчинялся целям, хотя я конечно не настаиваю, что он во всем верен.

Перенос виртуальной машины Debian из облака в ESXi

lyova 16 ноя 2022 в 13:06

Ядро собрано под работу у конкретного облачного провайдера, мне не удалось заставить его работать в ESXi. Но переустановка выполняется двумя командами и заняла у меня пару минут. Вряд ли это можно назвать долгим и утомительным процессом.

Как я создавал homelab для учебы на DevOps-инженера

lyova 15 ноя 2022 в 11:58

Есть задания от самой Наны, но они простые. Много упражнений по разным DevOps/технологиям лежит здесь. Ну а по Кубернетесу я проходил вот этот курс: Certified Kubernetes Administrator (CKA) with Practice Tests, там с упражнениями все в порядке.

Пока не устроился на работу, только начинаю рассылать резюме.

Как я создавал homelab для учебы на DevOps-инженера

lyova 15 ноя 2022 в 11:50

Помимо RHEL у меня в гипервизоре еще 4 виртуалки. В числе прочего я решил перенести в homelab свой Synology NAS. В нем стояло два больших диска, которые и дальше предполагалось использовать только для NAS.

А какие плюшки виртуализации Вы имеете в виду?

Как я создавал homelab для учебы на DevOps-инженера

lyova 15 ноя 2022 в 11:44

Насколько я знаю, залочен на игровых картах не полный проброс ее в виртуалку, а Shared Pass-Through Graphics. Это позволяет использовать одну карту как несколько физических, что, как я понимаю, служит для облачного гейминга. Такая возможность есть только у A100 и других серверных моделей.

Проблемы, с которыми я столкнулся были вызваны самим гипервизором. Когда я щелкал в ESXi по переключателю passthrough рядом с названием видеокарты появлялась надпись Enabled / Needs reboot, однако даже после перезагрузки ничего не менялось и карта оставалась невидимой для ОС.

Забыл, после чего конкретно карта заработала. Помню, что устанавливал vCenter и экспериментировал с настройками виртуальной машины.

Как я создавал homelab для учебы на DevOps-инженера

lyova 15 ноя 2022 в 01:49

Да. Идея была в том, чтобы перенести старые сайты на новые рельсы. Там сейчас сделано так, как было принято лет 10 назад. По докеру упражнения во всех моих курсах ну очень простые. А перенести mediawiki, mysql и один микросервис на nodejs в контейнеры, написать docker-compose.yaml это какая-никакая задача. Вот про кубер зря заикнулся. Соглашусь, что в этом особого смысла нет, даже учебного.

Как я создавал homelab для учебы на DevOps-инженера

lyova 15 ноя 2022 в 01:04

Да, все так. Из финального текста я вырезал абзац про пробрасывание видеокарты. Посчитал, что это немного не в тему изучения DevOps-инструментов. Без пробрасывания видеокарты Parsec не работает, так как ему нужен аппаратный encoder. А я большой поклонник этой программы - у меня 5к монитор и когда я использую ее, иногда забываю, что это удаленный рабочий стол: очень высокое разрешение и хороший отклик, хотя пинг до сервера от меня больше 50 мс.

Как я создавал homelab для учебы на DevOps-инженера

lyova 15 ноя 2022 в 00:59

Все, что я делаю с homelab, больше для обучения, чем для практически нужд. Nodejs там у меня тоже есть, но нагрузка на него и на apache так мала, что практического смысла в балансировщике нет. С радостью бы взялся за развертывание какого-нибудь приложения с микросервисной архитектурой, но не придумал пока задачу.

Как я создавал homelab для учебы на DevOps-инженера

lyova 15 ноя 2022 в 00:02

Да, мне надо было уточнить, что для доступа к рабочему столу Windows. Я использую для этого Parsec, он отказывался работать без dummy plug. Но даже если использовать AnyDesk, донгл решает проблемы с выбором высокого разрешения. Слышал, что их можно решить софтверно, но адаптер проще.

Информация

Специализация