Как стать автором
Обновить

Monitoring driven эксплуатация

Время на прочтение21 мин
Количество просмотров11K
Всего голосов 13: ↑12 и ↓1+11
Комментарии13

Комментарии 13

Вот бы ещё эти метрики с методами съёма были расшарены в виде шаблонов для Заббикса, весь интернет бы поднял благодетелям карму до неприличных высот.

Мониторинг им делает okmeter.io

Я про них и говорил, собственно.

В таком подходе много вопросов/проблем:


  • платформа: zabbix не очень подходит для большого количества подробных метрик
  • карма VS деньги: помимо того, что нужно выложить какие-то наработки, это нужно поддерживать и развивать, если это не монетизировать, проект быстро загнется. Такой подход могут себе позволить как правило большие компании, которым не сложно потратить пару человеко-лет на проект ради кармы.
Можно поподробнее насчёт неподходящести заббикса — в чём она проявляется?

В zabbix достаточно сложно положить скажем 1000 метрик, из которых хочется показать 1 график с topN метрик + other за приемлемое время.

Мне нравится ваш принцип, если идет постоянный поток писем от мониторинга, который не читается. То проще выключить отправку по почте, поймал себя на этой мысли год назад, когда скопом ставил отметку прочитанное.
А как у вас происходит работа если допустим ночью разбудили несколько человек по sms, и допустим двое-трое начали чинить сервер? Ведь спросонья не всегда голова работает ясно) что надо зайти в Jita поставить отметку или есть какой-то чат в телеграмме допустим, где пишет человек что взялся за починку сервера?

Есть чат и есть в мониторинге кнопка Ack, которая останавливает нотификацию по алерту.

Ну и главная новость — мы начали подготовку весеннего фестиваля «Российские интернет-технологии»
Как-то рановато вы начали готовиться — ещё с предыдущим не разобрались. Где видео докладов, которые прошли полгода назад? Что это за отношение к работе?
Думаю, стоит упомянуть так же anomaly detection. Штука весьма полезная и часто может подсказать вам о проблеме. В качестве примера можно привести алерт, который будет сравнивать частоту чтений из postgres. Если частота чтений в течении 5 минут меньше на 60% чем усредненное за последний час — это явный признак того, что с базой что-то случилось и ей пора уделить внимание.
Мы, конечно, жадные коммерсы, но сейчас продаём билеты по себестоимости — можно успеть до повышения цен

14000 руб., Карл!

В мониторинге файловой подсистемы не указано измеряется ли io latency, но есть мнение, что именно оно обычно говорит о проблемах с хранилищем или файловой системой. Так ли это?

Да, latency снимается

Зарегистрируйтесь на Хабре, чтобы оставить комментарий