Обновить
387.22

DevOps *

Методология разработки программного обеспечения

Сначала показывать
Порог рейтинга
Уровень сложности

Сбой AWS 19­–20 октября: во всём виноват DNS. Постмортем

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров603

19–20 октября 2025 года в регионе us-east-1 произошёл каскадный сбой, повлиявший на доступность глобальных сервисов. Компания AWS опубликовала детальный разбор, в котором раскрыла первопричину — дефект в автоматизированной системе управления DNS для сервиса DynamoDB. В статье приводятся полная хронология событий, описание воздействия на смежные сервисы (EC2, NLB, Lambda) и список запланированных улучшений для предотвращения подобных инцидентов в будущем.

Читать далее

Новости

Enterprise мониторинг с нуля: Prometheus + Grafana для FastAPI приложения

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров320

После того как ваше веб-приложение попадает в продакшн, самый важный вопрос — а как оно работает прямо сейчас? Логи дают ответ постфактум, но хочется видеть проблемы до того, как пользователи начнут жаловаться.

В этой статье я расскажу, как построил полноценную систему мониторинга для Peakline — FastAPI приложения для анализа Strava данных, обрабатывающего тысячи запросов в день от спортсменов по всему миру.

Читать далее

Как работает DNS в Linux. Часть 4: DNS в контейнерах

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров940

Каждая контейнерная платформа — Docker, Podman, Kubernetes — реализует собственную DNS-архитектуру со специфическими особенностями, преимуществами и подводными камнями. Понимание этих различий критически важно для построения надежных и производительных контейнерных инфраструктур. С чем мы и попробуем разобраться в этой статье.

Читать далее

Асинхронные цепочки задач в Рег.облаке: как повысить отказоустойчивость облачной платформы без потерь

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров90

Привет, Хабр! На связи Александр Усачёв, системный аналитик в группе облачных продуктов Рунити. В основе нашей облачной платформы Рег.облако лежит микросервисная архитектура: каждый сервис отвечает за свой участок бизнес-логики — от биллинга до управления сетями. Между собой они обмениваются задачами через брокер сообщений. 

В этой статье расскажу, как мы повысили отказоустойчивость нашей облачной платформы — и почему выбрали асинхронные цепочки задач вместо синхронных вызовов. Это история про устойчивость, Celery, RabbitMQ и немного про то, как инженерам стало жить спокойнее.

Читать далее

Неожиданная находка в Kubernetes: постквантовая криптография в кластерах

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров352

Развитие квантовых компьютеров ставит под угрозу классическую криптографию: потенциально они смогут взломать существующие алгоритмы шифрования вроде RSA и ECC. На выручку приходит постквантовая криптография (PQC). Автор статьи объясняет, как обстоят дела с PQC в TLS, что это значит для Kubernetes — и почему уже сегодня кластеры получили постквантовую защиту почти случайно.

Читать далее

Генеративный ИИ как штатный инженер техподдержки: настройка, внедрение, реальные ошибки

Уровень сложностиСложный
Время на прочтение3 мин
Количество просмотров756

Эксперимент, начавшийся как попытка автоматизировать ответы на тикеты, закончился созданием почти самостоятельного "сотрудника" службы поддержки. В статье рассказываю, как мы внедряли генеративную модель в техподдержку, как настраивали контекст, ловили баги. Много практики, немного самоиронии и код, который заставил rethink-нуть наш пайплайн поддержки.

Читать далее

rsync и переменные окружения

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.3K

Как скачать файлы с удаленной машины по пути, прочитанному из environment variable? Environment variable при этом сама расположена на удаленной машине...

Читать далее

Инжиниринг платформ: не CFEngine единым

Время на прочтение9 мин
Количество просмотров337

Привет, Хабр! Мы вскоре ожидаем из типографии топовую DevOps-новинку этого года — книгу Камиль Фурнье и Иэна Ноуленда «Инжиниринг платформ: техническое и управленческое руководство». Она продолжает и конкретизирует тему облачного развёртывания и дальнейшей поддержки приложений любой сложности, на которую мы ранее перевели отличную книгу Кифа Морриса «Программирование инфраструктуры» и сейчас обновляем её до 3-го издания (готовый перевод ожидается до конца года, затем пойдёт редактура). Также у нас в работе есть для вас книга «Terraform Cookbook» — за сроками выхода следите в разделе «Скоро!» у нас на сайте. Под катом же предлагаем вам перевод статьи, которую Камиль Фурнье написала около года назад, подробно изложив в ней, зачем и о чём она пишет книгу «Инжиниринг платформ», и какое место эта книга займёт на полке умелого девопса.

Читать далее

В AWS утро начинается не с кофе. Пал US-EAST-1

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров7.7K

Мрачным утром 20 октября 2025 года мониторинг AWS был краснее некуда, его залило кровью сервисов. Пал крупнейший и по совместительству старейший регион, обрабатывающий 35–40% всего глобального трафика AWS — US-EAST-1. На его воскрешение чернокнижники из AWS потратили 13 часов.

В этой статье я хочу разобрать, что именно произошло, почему восстановление заняло так много времени, и самое главное — что мы можем сделать, чтобы наши системы пережили подобное в будущем. Ведь US-EAST-1 падает уже не первый раз, и явно не последний.

Читать далее

Как мы учились смотреть на проблемы продукта «сверху»

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров555

Меня зовут Александр Ковалёв, и я занимаюсь разработкой инженерных продуктов Platform V Works. В этой статье поговорим про observability, а именно про конкретную область — мониторинг в продуктах. Обсудим, как вообще появляется сама идея мониторинга, какие есть варианты реализации. Расскажу, по какому пути пошли мы, какие ресурсы и материалы использовали.

Статья может быть полезна тем, кто впервые сталкивается с такими инструментами, как Prometheus и Grafana, а также всем, кто хочет изучить чужие примеры и прокачать компетенции в данной области.

Читать далее

Миграции Postgres с использованием логической репликации

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.8K

Миграция PostgreSQL — редкий проект, где «быстро и безболезненно» почти никогда не совпадают. Дамп/восстановление годится для сотен гигабайт, потоковая репликация по WAL — для тех, у кого есть к ней доступ. Но когда простоя не хочется, а WAL недоступен, остаётся третий путь — логическая репликация.

В этом материале — практический сценарий: как заранее перенести схему, обеспечить уникальную идентификацию строк (PK/уникальный индекс/REPLICA IDENTITY FULL), настроить публикации и подписки, следить за первичной загрузкой через pg_stat_subscription, корректно остановить запись на источнике и синхронизировать последовательности.

Старт миграции

Как настроить автообновление n8n через Portainer с помощью Watchtower

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров990

Поддерживать актуальность ваших Docker-контейнеров — важная задача для обеспечения безопасности и стабильности ваших приложений, будь то n8n, базы данных или веб-серверы. Ручное обновление контейнеров Docker может отнимать много времени, особенно когда их много. К счастью, существует эффективное решение – Watchtower. Этот инструмент позволяет настроить автоматическое обновление n8n а также других Docker-контейнеров, избавляя вас от рутины.

Если вы используете Portainer для управления своей Docker-средой, установка Watchtower через Portainer (Как установить Portainer читайте в этой статье) становится удивительно простой. В этой статье я подробно покажу, как выполнить установку Watchtower из интерфейса Portainer, настроить его для автоматического обновления n8n и всех других ваших контейнеров. Узнайте, как настроить Watchtower один раз и наслаждаться всегда актуальными сервисами.

Что нам понадобится для автоматизации обновлений Docker:

Читать далее

Варианты реализации GitOps при помощи Argo CD

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.2K

В «Экспресс 42» — подразделении «Фланта», которое консультирует компании по DevOps-практикам, — решили проверить, как можно реализовать GitOps по модели BSA (Base, Service, Application) с помощью Argo CD. Чистый эксперимент на тестовом репозитории.

Мы попробовали четыре подхода — от отдельного ApplicationSet на каждое окружение до матричного генератора — и оценили их по изоляции окружений, соблюдению принципа DRY, поддержке временных стендов, масштабируемости и другим критериям. В статье — кратко о самой модели и каждом варианте с их плюсами и минусами.

Читать далее

Ближайшие события

Как быстро избавиться от лагов на сервере по методике RED S.O.S

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.7K

Представьте: вы получаете алерт "сервер тормозит" или замечаете странные лаги в приложении. Отставить панику)) В этой статье мы разберем, как провести технический осмотр Linux-сервера и найти корень проблемы без углубления в тонны логов.

Сейчас расскажем вам про методику RED S.O.S. - структурированный подход, который превращает хаотичную проверку в системный диагноз. Это ваш чеклист для экстренного реагирования. Он не заменяет системы мониторинга (Prometheus, Zabbix), но дает моментальный снимок здоровья системы.

Фокус здесь на ключевых ресурсах: Resources (Ресурсы), Errors (Ошибки), Dependencies (Зависимости)

Читать далее

LiqTrade: от идеи до Production Ready за 3 месяца. Нельзя закончить допиливать проект, можно лишь перестать…

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров563

Solo developer journey: Как я довел B2B платформу от 8.5/10 до 8.8/10, исправил 13 критических багов, прошел Context7 MCP аудит и успешно задеплоил на production с первыми пользователями.

После первой части (концепция и MVP) и второй части (решение технических проблем), настал момент истины - финальная подготовка к production.

Читать далее

Сокращаем расходы на Kubernetes: практические подходы для pet-проектов и продакшена

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров5K

Привет! Я — Дима, менеджер продукта Managed Kubernetes в Selectel. Каждый день я вижу, как компании разных масштабов — от небольших стартапов до крупных enterprise — переносят свои сервисы в Kubernetes. Это логично: Kubernetes стал стандартом де-факто для оркестрации контейнеров, и с ним проще масштабировать и управлять приложениями.

Но как только кластер растет, почти всегда возникает вопрос: как оптимизировать расходы? Ведь большая часть стоимости — это воркер-ноды, на которых крутятся поды. Значит, первое, на что стоит обратить внимание, — выбор подходящих типов виртуальных машин или серверов. Под катом разберем варианты для разных сценариев: от pet-проектов до продакшен-сервисов.

Под кат →

Как я пришел к SLO: От хаоса алертов к осознанности

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.2K

Меня зовут Дима Синявский, я SRE-инженер в Ви.Tech — это IT-дочка ВсеИнструменты.ру.

Много лет назад я сидел под компьютером во время дождя. В субботу. И меня ударила молния.

Не буквально — хотя, если бы было буквально, мне бы сейчас не пришлось писать эту статью. Но энергетически — да. С тех пор я заряжен.

20+ лет в IT: сисадмин, бэкенд-разработчик, руководитель разработки, теперь — SRE.

Ты разработчик или инженер эксплуатации, и тебя дергают на каждую 500-ку. Бизнес требует: «Разберитесь!». А ты не знаешь — это много или мало? И главное — почему именно сейчас?

Если тебя уже задергала куча алертов от сервисов и не знаешь, что делать — ты здесь правильно.

Я раскажу про SLO не в общем, а от себя лично. Не через одну книжку. А через боль и бессонные ночи.

Но предупреждаю, если ты из компании, где SLO уже как офисная кофеварка — тебе тут нечего делать. Эта статья — для тех, кто только начинает. Для тех, кто хочет спать. Для тех, кто не ждёт идеального решения — и готов начать прямо сейчас.

Читать далее

Как добавить AI-ревью и ответы ассистента в Pull Request всего за 30 минут

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

В этом материале я покажу, как всего за 30 минут встроить в ваш CI/CD пайплайн полноценное AI-кодревью и ассистента на базе открытого инструмента AI Review — без платных API и лишней инфраструктуры.

Читать далее

Postmortem без обвинений: Миф или реальность?

Время на прочтение9 мин
Количество просмотров1.7K

Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.

Читать далее

AIOps — как воображаемый strartup внедрил ИИ

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров700

Давайте будем честны, современные подходы к выстраиванию алертинга и реагированию на инциденты в большинстве современных компаний оставляют желать лучшего...

Читать далее
1
23 ...

Вклад авторов