Pull to refresh
10
0
Егор Иванов @Saqreed

Уверенный юзер «вставьте свое»

Send message

Как я перестал гнаться за 100% аптаймом

Level of difficultyMedium
Reading time11 min
Views4.5K

Когда я только начинал работать, 100% аптайма казались мне священным граалем. Казалось: если сервис никогда не падает — пользователи счастливы, бизнес доволен, инженеры спят спокойно. Но реальность быстро показала: каждая дополнительная «девятка» стоит всё дороже, а выгоды становятся всё менее заметными. В статье делюсь опытом: почему гонка за идеальной надёжностью — тупик, как помогает концепция Error Budget и почему лучше найти баланс между стабильностью и развитием.

Читать далее

Как я перестал бояться алертов и полюбил дежурства

Level of difficultyEasy
Reading time13 min
Views7.1K

Когда я только начинал дежурить, телефон ночью был моим главным врагом: PagerDuty вырывал из сна десятки раз, а инциденты превращались в хаос. Со временем я понял, что on-call можно превратить в предсказуемый процесс — с правильными алертами, runbook-ами и командной культурой. В этой статье расскажу, как я перестал бояться алертов и научился относиться к дежурствам спокойно. Будет личный опыт, фейлы и практические советы

Читать далее

Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO

Level of difficultyEasy
Reading time7 min
Views4.4K

Когда я только начинал работать с инфраструктурой, всё выглядело как бесконечный пожар: сотни алертов, ночные звонки, хаотичные релизы и нервы на пределе. Мы гасили инциденты вручную, но проблема возвращалась снова и снова.

Ситуация изменилась, когда я познакомился с практиками SRE: SLO, SLI и error budget. Они помогли превратить хаос в систему и объяснить бизнесу надёжность на понятном языке. Теперь вместо бессмысленного «сервис упал!» мы обсуждаем конкретные цифры: сколько бюджета ошибок потрачено и когда можно катить релиз.

В этой статье расскажу, как мы внедрили наблюдаемость на основе golden signals, научились писать постмортемы без поиска виноватых и встроили задачи по надёжности прямо в бэклог. Всё — из реальной практики инженера, который за год прошёл путь от «тушения пожаров» к спокойной работе с прогнозируемой стабильностью.

Узнать, как выйти из этого хаоса

Information

Rating
Does not participate
Location
Россия
Registered
Activity

Specialization

System Administration, DevOps
Middle
From 120,000 ₽
Git
Linux
Docker
CI/CD
Golang
Bash
MongoDB
Elasticsearch
Database
XML