IlyaArens 9 июн 2021 в 12:19

Аварии как опыт #3. Как мы спасали свой мониторинг во время аварии в OVH

7 мин

Блог компании ФлантСистемное администрирование*Серверное администрирование*DevOps*

Технотекст 2021

+47

Комментарии 5

olafars 9 июн 2021 в 15:39

Надеюсь седины у Вас не добавилось, после пережитого.
Искренне восхищаюсь Вами!

Hixon10 9 июн 2021 в 23:54

Привет! Спасибо за статью — читается на одном дыхании.

Не совсем понял техническую часть с баш скриптами. То есть, у вас была интеграция с Okmeter, каким-то образом (или push, или pull модель — тут я не в курсе про это решение) туда попадали данные, там они хранились в их БД, возможно у вас там были ряд алертов (или не было?)

Окметра не стало, что именно делали баш скрипты? Стали использовать ваш внутренний prometheus?

IlyaArens 10 июн 2021 в 11:52

Привет. Все немного сложнее.

У нас есть своя собственная система интеграции с другими системами мониторинга — Madison. Okmeter был одним из источников данных, которые поступали в данную систему, а дальше обрабатывались на нашей стороне (имею ввиду именно процесс эскалации, severity и так далее).

Когда Okmeter перестал работать, мы, естественно, перестали получать от него данные. Времянка в виде баш скриптов повторяла логику тех алертов, которые были настроены на серверах, отправляя данные в Madison. Мы еще для поддержки «обратной совместимости» добавляли нужные лейблы и другую метадату в алерт, чтобы Madison думал, что алерт приходит из Okmeter. Это позволило не тратить дополнительное время на редактирование процесса эскалации со стороны дежурных инженеров.

Kalashmatik 10 июн 2021 в 00:52

Запилить мониторинг на 3000 хостов на «Башисбле» за сутки… Вы там вообще не ели, не пили, не спали? O_o

vitaly_il1 10 июн 2021 в 14:59

Спасибо, интересно и полезно!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий