Обновить
388.17

DevOps *

Методология разработки программного обеспечения

Сначала показывать
Порог рейтинга
Уровень сложности

AIOps — как воображаемый strartup внедрил ИИ

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров719

Давайте будем честны, современные подходы к выстраиванию алертинга и реагированию на инциденты в большинстве современных компаний оставляют желать лучшего...

Читать далее

Когда ERP умирает раньше, чем рождается: почему инфраструктура стареет ещё до запуска

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.7K

Каждый, кто хоть раз участвовал в крупном проекте автоматизации, знает это странное чувство — вроде всё делали по плану, а на выходе получается громоздкий, неуправляемый монстр. Почему современные ERP и CRM-системы часто не доживают до реального запуска в актуальном виде? Разберём, как инфраструктура стареет быстрее проекта, какие признаки указывают на надвигающуюся катастрофу, и что можно сделать, чтобы не повторять чужие ошибки.

Читать далее

Как сканировать Docker-образы на уязвимости

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров4.6K

Представьте: вы скачали готовый образ с Docker Hub, запустили контейнер, и вдруг ваш сервер становится частью ботнета. Как этого избежать? 

Рассказываем 3 простых способа сканирования образов

Trivy — сканер для ленивых (но эффективный)

Читать далее

Раскрываем всю мощь динамических матриц GitHub Actions

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.8K

Сегодня мы с вами на практике разберем что такое динамические матрицы в Github Actions и как с их помощью экономить время и ресурсы на практике.

Я подготовил монорепозиторий с несколькими микросервисами url-shortener-demo с очень коротким флоу: feature_branch(через PR) →  main. Как понятно из названия это проект позволяющий генерировать короткие ссылки.

Читать далее

Строим GitOps-платформу: Argo CD и всё, что к нему прилагается. Часть 2 — про практическое использование

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров2.1K

Привет, Хабр! Это вторая часть большой статьи, где мы — Егор Салиев и Николай Пушкарев, DevOps-инженеры Hilbert Team, — рассказываем, как построить GitOps-платформу на Argo CD.

В первой части разобрали базу: познакомились и установили Argo CD, изучили его компоненты и показали установку через Helm и Terraform. В этой — перейдём к практике и ответим на вопрос, что делать, когда команда растёт вместе с количеством приложений и усложняется инфраструктура. Пройдём по сценариям от маленькой команды до большой организации и соберём рабочую GitOps-модель на Argo CD.

Читать далее

MySQL в Uber

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров3.2K

Как поддерживать свыше 2300 кластеров MySQL без заметных простоев? В Uber это решают разделением на плоскости данных, управления и обнаружения и строгим приведением фактического состояния к desired state. В материале — анатомия control plane (Odin, Cadence, контроллер с правилами), как устроены плавные и аварийные переключения primary, замена узлов и онлайн-изменения схемы; как discovery на etcd и реверс-прокси даёт стабильный VIP; как наблюдаемость, CDC (Storagetapper→Kafka→Hive) и бэкапы закрывают эксплуатацию. ФВ фокусе — инженерные решения, которые позволяют удерживать 99,99% доступности без ручной магии.

К архитектуре

Развёртывание боевого кластера Cassandra. Часть 4

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров526

Это продолжение цикла, рассказывающего о практике развёртывания небольшого, но вполне производственного кластера Cassandra. В первой, второй и третьей частях мы продвинулись вперед вот по такому плану:

1. Анализ рабочей нагрузки и требований
2. Разработка схемы данных
3. Настройка хостовых машин
4. Настройка конфигурации Cassandra
5. Настройка топологии кластера
= ВЫ НАХОДИТЕСЬ ЗДЕСЬ =
6. Подключение Prometheus Cassandra Exporter
7. Подключение Prometheus Node Exporter
8. Вывод всех метрик в Grafana
9. Проведение нагрузочного тестирования
10. Дополнительный тюнинг по результатам теста

В этой части мы возьмём простой советский...

Читать далее

150 млн чтений/с: как Uber усилил консистентность кэша

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.3K

150 млн чтений в секунду — итог скрупулёзной инженерии кэша. В этом кейсе Uber — как ужесточить консистентность без удушения записи: инвалидация «по пути записи» из слоя запросов, дедупликация по commit-timestamp из БД, сочетание TTL и CDC на бинлогах, плюс измерение «черствости» через Cache Inspector. Разобраны реальные источники stale-данных (лаг CDC, реплики, негативное кэширование) и компромиссы вроде read-your-writes — с практическими схемами, которые масштабируются до сотен миллионов RPS.

Читать кейс

Тренды безопасной разработки: разбираем BSIMM 15 и сравниваем топ-10 активностей с предыдущим отчетом

Время на прочтение6 мин
Количество просмотров297

Процессы безопасной разработки — это не просто набор инструментов для проверки кода. Основная концепция в том, чтобы все процессы работали как единый механизм, а безопасность была не просто дополнением, а неотъемлемой частью разработки. Фреймворк Building Security in Maturity Model (BSIMM) предлагает смотреть на процессы безопасной разработки с точки зрения зрелости, как на измеримую систему действий и результатов, а не просто как на чек‑лист практик.

В этом году Synopsys не обделил нас новым отчетом и представил BSIMM 15, который мы с вами разберем. Не буду углубляться, что такое BSIMM и как его применять на практике, об этом вы можете прочесть в статье про BSIMM 14, но стоит отметить, что BSIMM дает ежегодную оценку применимости различных практик. На этом и сосредоточимся, посмотрим, какие появились новые активности и какие сейчас в тренде.

Читать далее

Эффективный мониторинг облачных решений: первые шаги от метрик к асинхронным задачам

Время на прочтение8 мин
Количество просмотров695

Без мониторинга инфраструктуры и сервисов любая проблема с приложением становится сюрпризом, причём обычно неприятным, который случается в самый неподходящий момент. С помощью настроенного мониторинга мы можем обнаружить проблемы до того, как пользователи придут и начнут жаловаться. 

Меня зовут Юлия Рубцова, я ведущий менеджер продукта Yandex Monitoring. В этой серии статей я и мой коллега Владимир Гордийчук @gordiychuk рассказываем про реальные сценарии использования мониторинга облачных решений. Что вас ждёт: мы покажем, как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце соберём лучшие практики для настройки мониторинга. 

Начнём с базы: что такое мониторинг, для чего он нужен, что такое золотые сигналы, как использовать гистограммы и перцентили. А уже затем рассмотрим сценарии мониторинга асинхронных задач.

Читать далее

Строим GitOps-платформу: Argo CD и всё, что к нему прилагается. Часть 1 — базовая настройка

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.2K

Многие компании реализуют GitOps-подход как часть внутренней Developers Platform. Он помогает унифицировать и автоматизировать доставку кода, повысить надёжность деплоя и дать разработчикам удобный интерфейс для работы с инфраструктурой. Один из самых популярных инструментов для этого — Argo CD.

Статья основана на воркшопе Егора Салиева и Николая Пушкарева, DevOps-инженеров Hilbert Team, проведённом на DevOps Conf 2025. В ней мы разберемся, как внедрить Argo CD и его ключевые компоненты, чтобы построить масштабируемую GitOps-платформу.

Материал будет в двух частях. Он будет полезен разработчикам и DevOps-инженерам, которые хотят понять, с чего начать внедрение GitOps в команде, организовать инфраструктуру под разные масштабы, а также всем, кто ищет способы унификации деплоя.

Читать далее

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.5K

Uptrace v2.0 использует новый JSON-тип ClickHouse для хранения observability-данных. Результат: запросы по трейсам ускорились в 10 раз.

Делюсь практическим опытом внедрения: установка за 5 минут через Docker, настройка data transformations для обработки данных на лету, гибкие retention policies для экономии на хранении.

В статье:

Пошаговая инструкция от установки до production

Примеры кода на Node.js с OpenTelemetry

Кейсы настройки: снижение cardinality URL, парсинг данных, удаление PII

Чеклист для продакшена

Подходит для микросервисных архитектур на 5+ сервисов, где нужна скорость поиска по атрибутам трейсов.

Читать про 10x ускорение

Terraform Actions: Глубокое погружение

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров3K

Terraform Actions — это новая концепция, представленная в Terraform 1.14, которая позволяет выполнять операции вне стандартного рабочего процесса CRUD (Create-Read-Update-Delete). Это расширяет возможности Terraform, позволяя взаимодействовать с ресурсами способами, для которых раньше требовались другие инструменты, например Ansible.

Читать далее

Ближайшие события

Разработка eBPF на Rust (aya-rs). С чего начать?

Время на прочтение9 мин
Количество просмотров2.2K

Привет, Хабр! Сейчас только ленивый не пишет про eBPF. Получается — теперь пишет.

Я Саша Лысенко, техлид DevSecOps в К2 Кибербезопасность. Как ИБ-специалиста, меня просто приводит в восторг идея, предлагаемая технологией eBPF. Произвольная программа в контексте ядра операционной системы — и все это без паники, ну сказка.

На самом деле eBPF уже активно применяется в индустрии разработки. Например, в Cilium для организации сети, в Tetragon для runtime безопасности контейнеров, в Falco для мониторинга событий на хостах и в контейнерах, в Katran для балансировки нагрузки, в Android для профилирования использования памяти, сети и энергии. Список этот огромный и продолжать можно долго.

Пройти мимо такого просто не возможно, и я тоже решил попробовать написать небольшой материал о том, как подступиться к eBPF. Для развлечений я обычно использую Rust, и этот случай не будет исключением.

Читать далее

Поиск работы в IT сломан. Я устал это терпеть и написал код, который играет против правил

Время на прочтение2 мин
Количество просмотров4.7K

Привет, Хабр.

Давайте по-честному. Искать работу в IT - это боль. Это не похоже на то, что нам обещали: интеллектуальные задачи, интересные проекты, уважение. Вместо этого мы получили бесконечный скроллинг hh.ru, вымученные сопроводительные письма и звенящую тишину в ответ.

Как консультант, я вижу всю изнанку этого процесса, и хочу поделиться, почему все так хреново. Это игра с поломанными правилами, где побеждает не самый талантливый, а самый выносливый.

Читать далее

Объединение DevOps и MLOps в единую экосистему поставки ПО

Время на прочтение8 мин
Количество просмотров341

Я уже некоторое время работаю в компании Scalehost, где мы исследуем возможности внедрения AI и ML в нашу инфраструктуру. В процессе поиска материалов, я наткнулся на данную статью, которая показалась мне интересной. В ней рассматривается как объединение подходов DevOps и MLOps помогает компаниям создавать более устойчивые и эффективные процессы разработки, снижать риски и повышать качество продуктов. 

Этот материал будет полезен техническим специалистам - DevOps-инженерам, дата-сайентистам и разработчикам, - и руководителям, стремящимся понять, как грамотно интегрировать технологии искусственного интеллекта в свои решения.

Читать далее

QuasarLinux: когда хочется свободы и удобства

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.7K

OpenRC + AUR + Wine с DXVK/VKD3D + модульный TUI-установщик. Всё это — QuasarLinux, основанный на Artix, но независимый от него.

Читать далее

Kubernetes 1.29.15 и GPU: как починить пропавшие видеокарты и настроить Time-Slicing

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.7K

В Ситидрайве Kubernetes обновляют регулярно — инфраструктура большая, и актуальность версий критически важна. После апгрейда до версии 1.29.15 один из GPU-узлов внезапно «забыл» о своей видеокарте, и нам пришлось срочно искать решение. В этой статье я расскажу, в чём была причина бага и как Time-Slicing помог повысить утилизацию GPU. Статья будет полезна всем, кто работает с GPU в Kubernetes и хочет избежать подобных сюрпризов в продакшене.

Читать далее

Как мы ускорили ввод новых узлов до 40 секунд: надежная работа на spot-инстансах в Kubernetes с Karpenter

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.1K

В нашей практике DevOps мы столкнулись с задачей оптимизации Kubernetes-кластера в AWS, включая перевод нагрузки на ARM64-инстансы с процессорами Graviton и эффективное использование spot-инстансов. Благодаря Amazon EKS и Karpenter нам удалось ускорить ввод новых узлов до всего 40 секунд и успевать переносить нагрузку при отборе узлов со стороны AWS. При этом мы сохранили привычный набор инструментов Deckhouse для мониторинга и управления — статья подробно рассказывает о нашем опыте и решениях.

Читать далее

Sysadmin, DevOps и SRE: как понимать эти роли, чтобы они не вредили карьере и бизнесу

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8.3K

С подключением, хабровчане! Меня зовут Роман Волков, я Senior DevOps в MТС Web Services. Кроме своей основной деятельности в роли инженера, я провожу собеседования и всегда задаю вопросы кандидатам о том, как они видят пользу, которую их роль приносит бизнесу, как могут оценить свою деятельность, какой у них метод ведения работы. Как многие, я читаю профильные чаты, тематические ресурсы. И... кажется, в ИТ‑сообществе до сих пор бытует мнение, что DevOps и SRE — это следующие этапы развития системного администратора.

Это наблюдение подтверждают и открытые вакансии: практически каждая дает список используемых технологий и бонусов для будущего кандидата, но не раскрывает специфику работы. Если бизнес не транслирует пользу от вакансии — сотрудники подбираются исходя из используемой технологии. А ведь есть разница в том, чтобы, например, администрировать Kubernetes, разворачивать полезную нагрузку в Kubernetes или обеспечивать высокую доступность приложению, развернутому в Kubernetes.

Ситуацию можно сравнить с подбором стоматолога по навыку работы специалиста с бормашиной. В такой клинике у вас высокий шанс попасть как к ювелиру, так и к мастеру маникюра.

Попробую внести ясность!

Вклад авторов