Вы уже занимаетесь SRE. Просто не знаете об этом
Вы уже занимаетесь SRE. Просто не знаете об этом

Меня зовут Дима Синявский, я SRE-инженер в Ви.Tech — это IT-дочка ВсеИнструменты.ру. В этот раз я решил помочь вам посмотреть на свою работу в отношении надежности. Особенно полезно будет тем, у кого официально нет SR-инженеров в штате.

"У нас нет SRE"

Знакомая фраза? Слышал её не раз – от руководителей, от коллег из других компаний.

Интуитивно многие думают: "Раз у нас нет SR-инженера – значит, мы ничего не делаем для надёжности". Но давайте взглянем честно. У вас есть:

  • дежурства, хоть и без чёткого расписания

  • мониторинг, даже если он посылает алерты в один общий Telegram-чат

  • инженер, который каждую неделю правит пороговые значения, потому что "опять всё красное"

  • обсуждения инцидентов, пусть и в виде двух строк в Jira: "Сервис упал из-за OOM. Увеличили лимиты"

Вы не "ничего не делаете". Вы реагируете, пытаетесь понять, что-то чините. Просто не называете это SRE – и не видите, куда двигаться дальше.

Как увидеть то, что уже есть

Если вы читаете это – скорее всего, в вашей команде уже есть практики, связанные с надёжностью. Просто они разрознены, не названы и не связаны в единую картину.

Чтобы это увидеть, вы можете сами посмотреть на карту развития надёжностиr9y.dev (в англоязычном сегменте ее часто упоминают как SRE Maturity Map). Эта карта создана сообществом на основе реального опыта, а не только книг Google. Вот тут даже есть ее видопрезентация от авторов https://www.youtube.com/watch?v=e_OD4AnxICg.

На карте надёжности вы увидите несколько областей, обозначенных по доступности: 90%, 99%, 99.9% и так далее. Визуально это вертикальные столбцы, каждый – набор практик.


В своей практике я иногда прошу помочь коллег "со стороны" – не как экспертов, а как зеркало. Иногда свежий взгляд помогает увидеть очевидное. Но чаще всего – карта и честный разговор в команде дают тот же эффект. Ведь карта развития надёжности – это вовсе не «чек-лист для идеальных команд». Это визуальный справочник практик.

Каждая точка на карте – это конкретная практика развития надёжности, например:  

  • Проведение постмортемов без поиска виноватых

  • Обеспечение плавной деградации вместо полного отказа

  • Использование канареечных релизов для снижения риска

Кликаете на название в карте и там ссылка с подробным описанием практики.

Описание одной из практик на карте
Описание одной из практик на карте

И вот когда вы проходите по карте взглядом, вы неизбежно ловите себя на мысли:  

> "А это мы уже делаем".  

> "А вот это – совсем не делаем, но больно без этого".  

> "А здесь у нас странная смесь: половина из 99%, половина – из 90%".

Именно в этот момент вы понимаете:  
Так мы то, оказывается, не начинаем с нуля. Мы уже кое в чем преуспели!”

Карта развития != модель зрелости SRE

Многие называют r9y.dev "картой зрелости SRE" (SRE Maturity Map). Но это легко понять неправильно.

На самом деле это интерактивная дорожная карта практик, где:

  • Вы не обязаны проходить уровни по порядку

  • Вы можете брать практики из одного столбца или нескольких разных – в зависимости от того, где ваша боль и какие риски вы готовы нести.

  • Цель – не "достичь максимальных девяток", а понять, сколько непрерывности реально нужно вашему бизнесу.

Каждый пункт — это практика, а не роль. И у вас, скорее всего, что-то уже есть.

Как говорит r9y.dev:  

"…to achieve the appropriate number of “nines” you need to provide value to your customers"

Ключевое слово – "appropriate". Значит достаточное, а не "максимальное".

Что может быть достаточным?  

  • При 90% – система может быть недоступна 36.5 дней в год

  • При 99% – 3.65 дня

  • При 99.9% – 8.76 часов

Это не какой-то стандарт, который заставляет выбирать "одно из". Спросите себя: сколько ваш бизнес может себе позволить?

Важно: не все сервисы требуют одинаковой надёжности.

У вас может быть платёжный модуль на 99.95%, а внутренний дашборд аналитики – на 90%. И это нормально.

r9y.dev не требует единых девяток для всей компании. Наоборот – он помогает выбрать для каждой области свой достаточный уровень и соответствующий набор практик.

Инвестируйте в надёжность там, где это действительно важно – для пользователей и для бизнеса.

Что делать — и чего не делать

  • Не сравнивайте себя с Google

  • Не пытайтесь покрыть все области (столбцы) и пункты карты

  • Не внедряйте SLO, если у вас нет даже базового процесса обработки инцидентов

Вместо этого:

1. Откройте карту развития надежности

2. Пройдитесь по областям (столбцам) и точкам в них

3. Отметьте всё, что вы уже делаете – даже если это "только дежурства"

4. Спросите коман��у: "Какая наша самая острая боль? Где один шаг даст максимальный эффект?"

Замечу, что карта не говорит вам: "Вы отстаете". Она показывает: "Вот что можно улучшить – здесь и сейчас"

SRE – это то, как вы думаете

Если вы:

  • Спрашиваете: «Как это повлияло на пользователя?»

  • Пытаетесь измерить, а не гадать

  • Ищете системные причины, а не виноватых

– вы уже делаете SRE.
Просто ещё не назвали это своим именем.

Послесловие

Этот пост – не призыв "внедрять SRE". Это напоминание: вы не начинаете с нуля. Вы уже на пути. Осталось только увидеть это – и выбрать направление осознанно.

Предыдущие материалы по теме

И несколько вопросов хотелось бы обсудить:

  1. Есть ли у вас сервисы, где "достаточно" 90% надёжности – и почему вы не стремитесь повысить её?

  2. Какая SRE-практика у вас уже "работает сама собой" – хотя вы никогда не называли её так?