Комментарии 3
А секрет простой: класть толстый беззвучный режим если сегодня не твой on-call.
Дальше как-нибудь сами разберутся, у operations ранбуки большие пусть они ими думают.
Сначала инженеры использовали встроенные средства из имеющихся нескольких систем мониторинга. Чтобы агрегировать всю собранную информацию, пришлось написать свой сервис.
Эх, а можно было бы взять alerta или icinga (и роутинг Алерты через них). И все равно нужен какой-нибудь opsgenie, чтобы нормально поддерживать эскалации алертов. И тогда никакие сервисы для подсчёта не пришлось бы писать. В остальном очень по делу и видно, что эти боли есть во многих компаниях.
СПАСИБО за ТРУД! От пехотных дел Мастера -- участника и соавтора крестового похода 2008 года; участника крестовых походов 2010 года, 2018 и 2019; и просто наблюдателя крестового похода 2021 года.
Блин, на дворе 2022 год, пятый директор, который снова тянет на события первого крестового похода 2008 года: все из-за таких, как вы, которые говорят -- не все надо автоматизировать))
А ведь по результатам периода 2008...2011 было понятно, -- только сплошная автоматизация не позволит времени повернуть вспять!
ЗЫ: просто жаль потерянного времени, когда с возрастом на резюме соискателя 5*+, на hh красуются красные "ОТКАЗ"
Мониторинг как процесс, или Как перестать бояться алертов и начать спать по ночам