Обновить
32K+
4,6
Оценка работодателя
236,64
Рейтинг
66 713
Подписчики
Сначала показывать

Deckhouse Prom++: как мы сжали разметку метрик Prometheus и снизили расход памяти в 2,5 раза с помощью статистики данных

Уровень сложностиСложный
Время на прочтение24 мин
Охват и читатели5.2K

Хотели избежать копирования данных, придумали свою служебную разметку, а потом обнаружили: она занимает почти столько же места, сколько сам исходный текст. Мы перестали гадать, посмотрели на реальные данные и применили простые, но эффективные подходы: числа переменной длины, отказ от double в пользу целых типов и умные if-else вместо switch

Итог: мы сжали разметку в 2,5 раза и при этом даже немного выиграли в скорости. Рассказываем, как знание предметной области помогло нам не усложнять код, а сделать его быстрее и легче.

Читать далее

Как вырасти до мидла: на что на самом деле смотрят тимлиды при оценке DevOps-инженеров

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.6K

Чтобы стать «мидлом, недостаточно выучить десяток новых инструментов и отсидеть пару лет на проекте. На деле тимлиды смотрят не на стек инженера, а на то, как он мыслит: закрывает ли задачу в вакууме или видит, как решение повлияет на всю систему. 

В статье разобрали типичные ошибки джунов, которые незаметно убивают прогресс, и дали конкретные шаги, как сменить угол зрения. Читайте, чтобы проверить себя и понять, что на самом деле отличает готовность к росту.

Читать далее

IP подов кончились, а обычные решения не подошли: как мы расширили сеть на проде, не пересоздавая кластер (кейс + гайд)

Время на прочтение11 мин
Охват и читатели9.5K

Штатная ситуация оказалась задачей со звёздочкой: кластер кинул алерт о том, что заканчивается сеть подов, но ни одно решение «из методички» не подходило, а вытаскивать кластер из прода было нельзя.

В статье расскажу, как мы не просто расширили подсеть подов, но сделали это на работающем кластере и не потеряли при этом данные. Что важно — трюк сработает на любом дистрибутиве Kubernetes и CNI.

Читать далее

Kubernetes дома? Ты не в себе? Как с Cursor и без DevOps-опыта поднять приватный кластер для личных проектов

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели11K

Я реализовал свою первую задачу по замене «Яндекс Диска», довёл скорость до 1,1 ГБ/с и пошёл дальше — установил Kubernetes дома. Я не инженер DevOps, но на своём кластере из старых Mac mini я запустил полноценный K8s с Managed Services.

Читать далее

Загадка ядра Linux: почему на 36 vCPU Cilium падает, а на 32 — нет

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели10K

На кону финансовые данные клиентов, а странный и неуловимый баг в Cilium не даёт как следует настроить сетевую безопасность.

Статья о том, почему любая «нерешаемая» проблема — это «пока недостаточно изученная» проблема. От случайных догадок — к системному исследованию и пул-реквесту с фиксом прямо в Linux.

Читать далее

Контроль целостности трёх «К» в Kubernetes: как не доставить в прод вредоносный код

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели7.9K

Между сборкой контейнера в CI и его запуском на узле есть длинная цепочка, в которой злоумышленники могут что-то подменить. Образ в registry, слои на диске, конфигурация в etcd, бинарники рантайма — каждый участок требует своей защиты. 

Рассказываем, как мы реализовали сквозной контроль целостности в Deckhouse Kubernetes Platform: что доработали в containerd и kube-apiserver, как подписываем ELF-файлы и почему выпадение любого звена ломает всю систему. Если вы строите свой контур доверия, в статье есть Open Source-альтернативы для старта.

Читать далее

Балансировка входящего трафика на железе: как надёжно вывести K8s наружу с MetalLB, BGP и L2 (подход от Deckhouse)

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели10K

На bare metal внешний доступ к Kubernetes часто становится головной болью: NodePort с рандомными нестандартными портами не для продакшена, а облачного балансировщика нет. MetalLB превращает обычные узлы кластера в полноценный балансировщик с автоматическим failover. Разбираем режимы BGP и L2, а ещё показываем фишку Deckhouse Kubernetes Platform, которая спасает активные соединения при падении узла.

Читать далее

DRAйверы для GPU: как Kubernetes научился выделять устройства через стандартный API

Уровень сложностиСложный
Время на прочтение20 мин
Охват и читатели8.2K

Device Plugin в Kubernetes сводит GPU к счётчику на узле: планировщик видит только количество устройств, но не их профиль, объём памяти или режим шаринга. Для ML-задач это быстро становится ограничением. Обучению нужны выделенные карточки целиком, инференсу — управляемые доли, а CI хватит и четвертинки NVIDIA H100 на пять минут. 

Dynamic Resource Allocation полностью меняет модель управления устройствами. GPU становятся сущностью с инвентарём, атрибутами и правилами выбора. В статье я разбираю устройство DRA и показываю миграцию с device plugin на примере кластера из 8 узлов × 8 NVIDIA H100 без полного переписывания манифестов. А ещё объясняю, почему мы в Deckhouse пишем свой DRA-драйвер.

Разобраться с DRA

Пайплайн не должен хранить секрет: безопасное хранение и доставка секретов для CI/CD с Deckhouse Code и Stronghold

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели11K

CI/CD-пайплайн, который хранит секреты, — это риск. В безопасной модели он получает доступ к чувствительным данным только на время выполнения задачи и строго в рамках своих прав.

Разбираем, почему GitLab CI/CD Variables — это не хранилище секретов, какие подводные камни ждут при самодельной интеграции GitLab CE с HashiCorp Vault и как связка Deckhouse Code и Stronghold закрывает эти проблемы без Bash-портянок в before_script.

Читать далее

Прочитал свой геном на кухне и превратил мазок щеки в 30 гигабаз данных ДНК

Время на прочтение23 мин
Охват и читатели17K

Автор прочитал свой геном прямо на кухонном столе. В статье — полный протокол без воды: какое железо купить, как не слить бюджет на проточную ячейку и как настроить таргетное обогащение, чтобы получить ответы именно по вашим вопросам. Переходите, если хотите понять, как устроена современная DIY-генетика и с чего начать свой первый прогон.

Перейти к гайду

Настроил ИИ-агента прямо в редакторе Zed: подключил Gemini и gopls, чтобы агент понимал код и реально помогал писать

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели9.9K

В последние 10 лет я стал работать быстрее, но по сути ничего не менялось: я всё так же вручную писал код и тесты. С приходом ИИ я стал искать способы это изменить — о своём пути я решил написать в этой статье.

Я на своём опыте расскажу, как выбрать LLM и ИИ-агента, как его настроить и калибровать, а также поделюсь полезными техниками промпт-инжиниринга. 

Читать далее

Обзор релиза Kubernetes 1.36: перестаём пересобирать образы, чистим «зомби» PVC и читаем логи без SSH. Разбор 68 фич

Уровень сложностиСредний
Время на прочтение35 мин
Охват и читатели11K

Вышел Kubernetes 1.36 — релиз, который наконец-то закрывает старые боли админов и разработчиков. Больше не нужно пересобирать образы ради одного сигнала остановки: его теперь можно прописать прямо в манифесте. А «зомби-томы», которые висят мёртвым грузом и жрут место, стало легко находить по дате последнего использования. Собрали в статье разбор всех 68 изменений на русском языке.

Читать далее

Deckhouse Prom++: как мы посадили Prometheus на RAM-диету и сэкономили 89 % памяти в хранилище данных

Уровень сложностиСложный
Время на прочтение16 мин
Охват и читатели10K

Утро: 3,8 ТБ памяти на кластеры Prometheus. Вечер: 0,6 ТБ. Между ними — переход на Deckhouse Prom++.

Мы потратили месяцы на внимательный анализ данных и разработку: писали свои структуры данных на С++, экономя каждый байт и охотясь за каждой наносекундой производительности. Разнообразные энкодеры для специфических данных, вектор с дырками и упакованные структуры — в статье делимся деталями реализации Open Source-проекта, который вы можете уже сейчас использовать для реальной экономии на мониторинге.

Читать далее

От 10 МБ/с к 700 МБ/с: заменил «Яндекс Диск» на Nextcloud/NetBird без знаний DevOps (помог Cursor)

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели20K

Бросил «Яндекс.Диск» и собрал своё облако на Nextcloud + NetBird: 700 МБ/с скорости. Без знаний DevOps, без серьёзных денег, только Cursor в помощь. Читайте, как я шаг за шагом вернул к жизни 10-летний Mac mini — и убедился, что старому псу новые трюки вполне по силам. А заодно научился общаться с ИИ как прораб на стройке.

Читать далее

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

Уровень сложностиСложный
Время на прочтение15 мин
Охват и читатели6.6K

Device plugin умеет выделять только целочисленные ресурсы: одну карту, две карты — или одну MIG‑партицию, но не «полкарты» и не «30% памяти». В реальности же нужны доли памяти, учёт топологии, предсказуемые обновления и изоляция, а не пулы лейблов и кастомные шедулеры. Разобрал, почему индустрия устала от костылей, как это проявляется в настоящем AI‑кластере и что именно пытается исправить DRA. Читать, если хотите управлять ресурсами явно, а не тушить пожары по расписанию.

Понять, куда двигаться

Даёшь самоуправление! Управляем конфигурацией HashiСorp Vault изнутри, опираясь на Git и кворум подписей

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели8.6K

При управлении доступом в HashiCorp Vault есть выбор: делать это либо супербезопасно, но неудобно, либо удобно, но с риском компрометации секретов. В первом случае вы отзываете root-токен после инициализации хранилища и для каждого изменения конфигурации собираете кворум владельцев Shamir-ключей. Во втором — применяете конфигурацию через CI/CD или из-под администратора, и тогда где-то обязательно существует «кольцо всевластия»: токен или пароль, компрометация которого даёт полный контроль над инфраструктурой секретов.

Мы решили объединить безопасность и удобство в одном решении. Взяли идею кворума и привычный инженерному сообществу способ аудита изменений — коммиты в Git. Что получилось — читайте под катом. Cпойлер: вы сможете использовать это решение бесплатно.

Читать далее

Настройка сети в Kubernetes: основы CNI

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели7.8K

Kubernetes-кластер без сети — не кластер, а просто набор несвязанных компонентов. Чтобы «оживить» его, важно понимать, что такое Container Network Interface (CNI) и как он работает.

В статье — детальный разбор механизма CNI: что такое CNI-плагин, как он запускается и какие операции выполняет в кластере. В конце работа CNI демонстрируется на примере кастомного плагина.

Для желающих глубже погрузиться в тему есть список дополнительных материалов.

Читать далее

GitLab CI кажется сложным, если не знать этих трюков: как убрать дублирование и ускорить пайплайны в 3 раза

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели10K

У вас в GitLab несколько проектов с одинаковым CI? Или просто надоела копипаста в пайплайнах? Каждое изменение нужно отразить в 10 местах? Рассказываем, как сократить код на 56 %, убрать дублирование и сделать один CI для всей группы проектов. Шаблоны, матрицы и практика.

Избавиться от копипасты

Когда кластер решает, что ваш под «лишний»: гид по всем вариантам вытеснения

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели8K

В этой статье разбираются все случаи, когда под в кластере может исчезнуть сам — без kubectl delete и без вашего ведома. Перезапуск kubelet, нехватка памяти, taint с эффектом NoExecute, высокоприоритетный под в очереди планировщика — любой из этих сценариев способен остановить под, даже если вы настроили плавное завершение.

В конце удобная шпаргалка, чтобы держать ситуацию под контролем даже в небольшом кластере.

Читать далее

3D-печать на стероидах: как я научил Creality K1C считать затраты филамента

Уровень сложностиСложный
Время на прочтение11 мин
Охват и читатели12K

Чуть больше года назад я купил себе Creality K1C. В целом принтер меня устраивал, но со временем обнаружились кое-какие неудобства и недочёты, и мне захотелось допилить аппарат под себя.

В статье расскажу, как я заменил дефолтный примитивный интерфейс и лагающий лаунчер, а самое главное — настроил подсчёт филамента, чтобы мониторить остатки и обеспечивать бесперебойную печать.

Читать про автоматизацию филамента
1
23 ...

Информация

Сайт
flant.ru
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия
Представитель
Александр Лукьянов