Как стать автором
Обновить

Аварии как опыт #3. Как мы спасали свой мониторинг во время аварии в OVH

Время на прочтение7 мин
Количество просмотров8K
Всего голосов 47: ↑47 и ↓0+47
Комментарии5

Комментарии 5

Привет! Спасибо за статью — читается на одном дыхании.

Не совсем понял техническую часть с баш скриптами. То есть, у вас была интеграция с Okmeter, каким-то образом (или push, или pull модель — тут я не в курсе про это решение) туда попадали данные, там они хранились в их БД, возможно у вас там были ряд алертов (или не было?)

Окметра не стало, что именно делали баш скрипты? Стали использовать ваш внутренний prometheus?
Привет. Все немного сложнее.

У нас есть своя собственная система интеграции с другими системами мониторинга — Madison. Okmeter был одним из источников данных, которые поступали в данную систему, а дальше обрабатывались на нашей стороне (имею ввиду именно процесс эскалации, severity и так далее).

Когда Okmeter перестал работать, мы, естественно, перестали получать от него данные. Времянка в виде баш скриптов повторяла логику тех алертов, которые были настроены на серверах, отправляя данные в Madison. Мы еще для поддержки «обратной совместимости» добавляли нужные лейблы и другую метадату в алерт, чтобы Madison думал, что алерт приходит из Okmeter. Это позволило не тратить дополнительное время на редактирование процесса эскалации со стороны дежурных инженеров.
Запилить мониторинг на 3000 хостов на «Башисбле» за сутки… Вы там вообще не ели, не пили, не спали? O_o
Спасибо, интересно и полезно!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий