Обновить
221

DevOps *

Методология разработки программного обеспечения

Сначала показывать
Порог рейтинга
Уровень сложности

Когда мейнтейнер молчит

Время на прочтение4 мин
Охват и читатели12K

Странно писать про форк open-source проекта для ушедшего в историю Docker Swarm. Но после Millau остался ещё один гештальт - периодические задачи. Посмотрел на Ofelia и Swarm-cronjob, их звезды, обновления, количество незакрытых репортов. Попытался связаться с автором - тишина. Так что с чистой совестью взял код и добавил недостающее. Получилась Cirona - Swarm-cronjob с телеметрией и дашбордами.

Читать далее

Ноябрь 2025: обновленный рейтинг технологий от TrueIndex

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели12K

Уже начало ноября, и мои парсеры давно собрали свежие данные. Сегодня я поделюсь анализом обновления рейтинга и новостями проекта...

Читать далее

Метрики как стоп-кран: безопасные релизы Cloudflare под нагрузкой

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.3K

Cloudflare показывает, как превратить метрики в механизм безопасных релизов под глобальной нагрузкой. В основе — Health Mediated Deployments: решения о выкатывании принимаются по SLI/SLO из Prometheus/Thanos, с распределёнными агрегациями на уровне дата-центров, recording rules, бэктестингом инцидентов и адаптивным ограничением параллелизма. Результат — заметно быстрее вычисляются критичные запросы, батчи ускорены примерно в 15 раз, а откаты происходят до того, как проблема успевает разрастись.

Смотреть разбор

Топ-10 жизненных мемов про облака, которые поймут только финопсеры

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели10K

У каждой профессии свои приколы. Врачи шутят про пациентов, программисты — про баги, эйчары – про кандидатов. Не смеются только финансисты. Потому что когда видишь забытую dev-среду, работающую три года подряд, понимаешь, что завтра придется как-то объясняться перед финдиром. Но именно из таких ситуаций и рождаются самые смешные мемы. Ведь без самоиронии в нашем деле никак.

Смотреть все мемы

Тонкости обновления драйверов NVIDIA в Yandex Managed Kubernetes

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели7.4K

Привет! Я Алиса, DevOps-инженер в KTS.

В этой статье я расскажу о том, как мы настроили автоматическое обновление драйверов NVIDIA для работы с Jupyter и ML-стеком в управляемом кластере.

Проблема: когда контейнеры и ML-библиотеки обновляются чаще, чем системные образы GPU-нод, версия драйвера быстро перестает соответствовать версии CUDA в контейнере. В итоге при вызове  nvidia-smi возвращает ошибку Driver/library version mismatch, а CUDA просто не видит драйвер на хосте.

Нам нужно было обновить Jupyter с ML-стеком, зависящим от CUDA. Как следствие, встал вопрос обновления драйверов NVIDIA на GPU-нодах. Можно было выполнять его руками на каждой ноде, но такой способ нам не подходил, и мы выбрали автоматизацию, которой и посвящена моя статья. Ниже я разберу и ручное обновление, и варианты автоматизации, а также объясню, как мы решали проблему конфликта GPU Operator с предустановленными драйверами.

Читать далее

Как я уменьшил Docker-образ Go-приложения с 1.92 GB до 9 MB

Время на прочтение6 мин
Охват и читатели32K

Первый Docker-образ для моего Go-приложения весил 1.92 GB. Для микросервиса на 100 строк — абсурдно. Решил разобраться, куда именно уходит место и как добиться максимально лёгкого образа.

Читать далее

Cursor 2.0: многоагентная AI-IDE и собственная модель Composer — что это меняет для разработчиков

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели17K

В конце октября 2025 Anysphere представила Cursor 2.0 — крупное обновление AI-IDE с параллельными агентами и новой моделью Composer. Идея проста: вы ставите цели, а агенты пишут и проверяют код, тестируют и готовят диффы, а разработчик смещается к роли менеджера ИИ-процесса. В статье разбираемся, что именно появилось, на чем это работает и какие ограничения важно учесть.

Читать далее

Замена APM-платформы: опыт перехода с Instana на Proto

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели6.5K

Здравствуйте, меня зовут Юрий Юшкевич, я руководитель ИТ-разработки/CTO. В этой статье я расскажу о процессе замены APM-решения в крупной финтех-компании: почему мы ушли с Instana, как выбирали альтернативу и что изменилось после внедрения Proto Observability Platform.

Читать далее

Разворачиваем без боли Terraform в Яндекс облаке

Время на прочтение8 мин
Охват и читатели6.6K

Концепция “Инфраструктура как код” (IaC) стала неотъемлемой частью методологии DevOps. С помощью IaC мы можем без труда развернуть в облаке нужную инфраструктуру. При этом, мы можем развернуть абсолютно идентичные инфраструктуры как для среды разработки, так и для тестирования и для продуктивной среды.

На просторах сети можно встретить большое количество публикаций, посвященных использованию «иностранных» облаков, таких как Amazon, Google и Microsoft. Однако, в текущих условиях использование данных провайдеров практически невозможно. Между тем на российском рынке также есть много интересных игроков. В рамках данной статьи мы посмотрим использование Яндекс Облака. Но для начала давайте разберемся с тем как в принципе реализуется IaC.

Развернуть инфраструктуру

«Это почти не больно»: внедряем DevOps as a Service в Enterprise

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.6K

Когда в вашем ИТ-ландшафте есть «маленькая шлюпка», представляющая собой один контейнер, — это понятная и легко управляемая история. Если же речь идет о «Титанике», множестве контейнеров, то все уже не так просто, как хотелось бы.  Когда же вы вырастаете до целой флотилии, где каждый корабль — это отдельный кластер Kubernetes, то здесь возникают нюансы.

В статье я поделюсь опытом, как подойти к этой проблеме системно: внедрить DevOps as a Service так, чтобы он стал не «еще одной модной практикой», а реально работающим сервисом внутри enterprise. Разберем, какие сложности чаще всего встречаются на пути, какие метрики помогают понять, что вы движетесь правильно, и как справляться с сопротивлением команд.

Читать далее

Спокойствие админа: автоматический мониторинг и Telegram-уведомления с Monit

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели16K

Мониторинг процессов на сервере — ключевой элемент для безопасности и стабильности работы всей системы. Даже если на сервере всего несколько процессов, бывает очень критично вовремя узнавать об их сбоях и недоступности, чтобы своевременно восстановить доступ. Для автоматического отслеживания удобно использовать специализированный под эти задачи сервис, такой как Monit — лёгкий, но при этом мощный инструмент, позволяющий не только отслеживать работу процессов (например, nginx, apache, mysql, postgres, redis, node, java) и перезапускать их автоматически, но и направлять уведомления об этом (например, в Telegram).

Читать далее

Осенние будни DevOps: Debian 13 и Proxmox VE 9.0 в продакшене HOSTKEY

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели11K

Новая версия Debian 13 и релиз Proxmox VE 9.0 пришли почти одновременно, вызвав ажиотаж у клиентов. В статье рассказываем, как команда HOSTKEY адаптировала свои процессы, автоматизировала деплой и подготовила инфраструктуру под свежие релизы.

Читать далее

Как корректно и безопасно вывести диски OSD и узлы из кластера Ceph: подробный алгоритм от команды VK Tech

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели7.8K

При работе с распределенными хранилищами на базе Ceph иногда возникает необходимость временно или окончательно исключить узел из кластера. Это может понадобиться при обновлении оборудования, обслуживании инфраструктуры или перераспределении ресурсов. Вместе с тем если узел, подлежащий выводу, одновременно исполняет роли MON (Monitor), MGR (Manager Daemon) и MDS (Metadata Server), задача превращается в настоящий квест hard-уровня. Но при должном подходе и с такими кейсами можно справиться. 

Меня зовут Алексей Косов. Я старший инженер доступности отдела интеграции и сопровождения облачных решений в команде VK Tech. СХД Ceph — это часть поставки нашего продукта для построения частного облака в ЦОДе заказчика VK Private Cloud. В этой статье я пошагово покажу, как можно вывести узел с полным комплектом сервисов Ceph из кластера, чтобы кластер и остальные узлы не пострадали.

Читать далее

Ближайшие события

Тренды DevOps 2025: Новые версии K8s и OpenSearch. Гид по главным изменениям

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели7.3K

Привет, коллеги! Год продолжает радовать нас мощными апдейтами!) Делимся подборкой самого интересного, что случилось в мире DevOps-инструментов недавно.

Динамическое обновление ресурсов Pod и Kubernetes

Одна из самых крутых фич, которая стала стабильной в Kubernetes 1.33, - это возможность изменять запросы и лимиты CPU/памяти у работающих подов без их перезапуска.

Читать далее

Когда база устала искать: архитектура OpenSearch для больших данных

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.8K

БигДата всегда звучит красиво — пока не нужно по ним искать и за нее платить.

Когда данные перестают влезать в индекс, а поиск тормозит — дело не в БД, а в архитектуре.Рассказываю, как мы перестроили систему на связке PostGIS + OpenSearch и добились отклика в десятки миллисекунд.

Читать далее

Что еще могёт курсор

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели12K

Началось все весьма прозаично, клиент позвонить к нам в техподдержку и спросил «а как бы мне поставить ваш софт но в другую схему БД». Собственно вопрос проще некуда — мы писали на спринге, а значит лезем в application.yml и ставим схему. Но, клиент не из тупых и уже это попробовал — не сработало.

Начинаем разбираться что сломалось и кто виноват. Первым делом ДевОпс повторяет кульбиты клиента и выдает простой вердикт: «В 151 миграции лажа». Я открываю и: «батюшки родный, да это же лосенок явное указание схемы!»

Читать далее

On-call ротация без выгорания

Время на прочтение8 мин
Охват и читатели7.7K

Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.

Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.

Читать далее

Observability vs Monitoring: за что вы платите?

Время на прочтение7 мин
Охват и читатели8.5K

Помню, как на собеседовании в одну крупную компанию мне задали вопрос: "Чем отличается observability от monitoring?" Я уверенно ответил что-то про "три столпа" и "unknown unknowns". Интервьюер кивнул, но потом спросил: "А зачем платить $100k в год за Datadog, если можно поставить бесплатный Prometheus?"

Тогда я не смог внятно ответить. Сейчас, спустя три года и несколько миграций между системами мониторинга, я знаю ответ. И он стоил нашей компании около полумиллиона долларов в экспериментах. Давайте разберемся, за что же мы платим такие деньги.

Читать далее

Toil: Почему вы все еще делаете это руками?

Время на прочтение6 мин
Охват и читатели11K

Знаете, что я делал вчера с 10 до 12 утра? Деплоил новую версию на production. Вручную. На 15 серверов. По SSH. В 2024 году. И это не самое грустное. Самое грустное — что я делаю это каждую неделю. И каждый раз обещаю себе, что вот на следующей неделе точно автоматизирую. Но следующая неделя наступает, и я снова сижу и копипащу команды в терминал.

Если вы узнали себя — добро пожаловать в клуб анонимных toil-оголиков. Давайте поговорим о том, почему мы все еще делаем руками то, что должны были автоматизировать еще вчера.

Читать далее

BuildKit в Kubernetes: мануал по быстрой и автомасштабируемой сборке проектов

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели8K

Всем привет! Я Алексей Босенко, DevOps-инженер в компании KTS. В этой статье я покажу, как комплексно настроить быструю и эффективную сборку проектов в Kubernetes с использованием BuildKit, которая учитывает не только производительность, но и стоимость ресурсов.

Под этой громкой фразой я подразумеваю целый комплекс решений: как создать и настроить экономичный кластер Kubernetes для сборок (ведь цена вопроса всегда важна), как настроить GitLab Runners и как сделать эффективное масштабирование сборок. Особый акцент будет на том, почему мы выбрали BuildKit, какие варианты использования он предлагает, и как непосредственно настроить один из них.

Будет много подробностей о том, почему мы принимали эти решения и как внедряли их у себя, так что статью можно использовать в качестве Production-ready-мануала.

Читать далее

Вклад авторов