Мониторинг простыми словами, или как я объяснил маме работу SRE / Комментарии / Хабр

ky0 9 сен 2024 в 04:01

Не сказал бы, что стало понятнее. Вы говорите:

SRE (Site Reliability Engineer, "инженер по надежности") - профессия, а также набор принципов и практик для создания отказоустойчивых и масштабируемых систем.

Это отлично, но тут нет ничего про мониторинг. В идеале, можно написать отказоустойчивую и масштабируемую систему вообще без мониторинга. Мониторинг (для людей), всё-таки, нужен по большей части чтобы побыстрее поднять уже упавшее или заранее заметить заканчивающиеся ресурсы.

Выглядит, как будто инженер эксплуатации, представляющий, что такое Грейлог, Прометеус, Графана и остальная пачка вполне распространённых технологий, издалека неотличим от SRE :)

hiimluck3r 9 сен 2024 в 04:19

Спасибо за комментарий!

Это отлично, но тут нет ничего про мониторинг. В идеале, можно написать отказоустойчивую и масштабируемую систему вообще без мониторинга.

Вы правы, я рассматривал мониторинг именно как инструмент для такой системы, однако не уверен, что такую сложную систему можно будет поддерживать вслепую по мере увеличения трафика)

Мониторинг (для людей), всё-таки, нужен по большей части чтобы побыстрее поднять уже упавшее или заранее заметить заканчивающиеся ресурсы.

Тоже не до конца соглашусь, есть такой сценарий: изначально для того, чтобы точно дать нужное количество ресурсов микросервисы заливали железом. Под конец года оказалось, что половине из них не нужно столько RAM, а 80% из них не утилизировали процессор даже на 30%. Помогло снизить использование квоты, сохранив деньги команды.

Другой сценарий: день ото дня виден один и тот же тренд на использование сервисов и тут неожиданно приходит жирная пачка запросов из самых разных стран (причем целевая аудитория - только одна-три из них). Как будто бы определение ДДОСа на самых ранних этапах тоже производится путем мониторинга, каким бы он не был.

Выглядит, как будто инженер эксплуатации, представляющий, что такое Грейлог, Прометеус, Графана и остальная пачка вполне распространённых технологий, издалека неотличим от SRE :)

Технически же так оно и есть) Если инженер эксплуатации занимается разбором инцидентов, мониторингом и другими SRE-специфичными задачами (используя соответствующие практики), не правильнее его будет назвать SRE?

CrzyDocTI 9 сен 2024 в 08:13

DevOps - улучшает скорость доставки и использует метрики для этого
SRE - улучшает стабильность и использует метрики для этого

ни тот, ни другой не ставит в свои задачи реакцию(хотя и DevOps и SRE могут реагировать) на инциденты - для этого есть дежурный или инженер по эксплуатации, они улучшают процессы приводящие к результату. отличительная особенность от дежурного - долговременное планирование и работа с процессами а не их результатом

Мониторинг простыми словами, или как я объяснил маме работу SRE

Комментарии 3

Публикации