Комментарии 5
Надеюсь седины у Вас не добавилось, после пережитого.
Искренне восхищаюсь Вами!
Искренне восхищаюсь Вами!
+2
Привет! Спасибо за статью — читается на одном дыхании.
Не совсем понял техническую часть с баш скриптами. То есть, у вас была интеграция с Okmeter, каким-то образом (или push, или pull модель — тут я не в курсе про это решение) туда попадали данные, там они хранились в их БД, возможно у вас там были ряд алертов (или не было?)
Окметра не стало, что именно делали баш скрипты? Стали использовать ваш внутренний prometheus?
Не совсем понял техническую часть с баш скриптами. То есть, у вас была интеграция с Okmeter, каким-то образом (или push, или pull модель — тут я не в курсе про это решение) туда попадали данные, там они хранились в их БД, возможно у вас там были ряд алертов (или не было?)
Окметра не стало, что именно делали баш скрипты? Стали использовать ваш внутренний prometheus?
0
Привет. Все немного сложнее.
У нас есть своя собственная система интеграции с другими системами мониторинга — Madison. Okmeter был одним из источников данных, которые поступали в данную систему, а дальше обрабатывались на нашей стороне (имею ввиду именно процесс эскалации, severity и так далее).
Когда Okmeter перестал работать, мы, естественно, перестали получать от него данные. Времянка в виде баш скриптов повторяла логику тех алертов, которые были настроены на серверах, отправляя данные в Madison. Мы еще для поддержки «обратной совместимости» добавляли нужные лейблы и другую метадату в алерт, чтобы Madison думал, что алерт приходит из Okmeter. Это позволило не тратить дополнительное время на редактирование процесса эскалации со стороны дежурных инженеров.
У нас есть своя собственная система интеграции с другими системами мониторинга — Madison. Okmeter был одним из источников данных, которые поступали в данную систему, а дальше обрабатывались на нашей стороне (имею ввиду именно процесс эскалации, severity и так далее).
Когда Okmeter перестал работать, мы, естественно, перестали получать от него данные. Времянка в виде баш скриптов повторяла логику тех алертов, которые были настроены на серверах, отправляя данные в Madison. Мы еще для поддержки «обратной совместимости» добавляли нужные лейблы и другую метадату в алерт, чтобы Madison думал, что алерт приходит из Okmeter. Это позволило не тратить дополнительное время на редактирование процесса эскалации со стороны дежурных инженеров.
+1
Запилить мониторинг на 3000 хостов на «Башисбле» за сутки… Вы там вообще не ели, не пили, не спали? O_o
0
Спасибо, интересно и полезно!
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Аварии как опыт #3. Как мы спасали свой мониторинг во время аварии в OVH