olegbunin 5 дек 2016 в 22:20

Monitoring driven эксплуатация

21 мин

11K

Блог компании Конференции Олега Бунина (Онтико)Системное администрирование*IT-инфраструктура**nix*Серверное администрирование*

+11

Комментарии 13

ky0 6 дек 2016 в 00:04

Вот бы ещё эти метрики с методами съёма были расшарены в виде шаблонов для Заббикса, весь интернет бы поднял благодетелям карму до неприличных высот.

RPG18 6 дек 2016 в 02:23

Мониторинг им делает okmeter.io

ky0 6 дек 2016 в 08:38

Я про них и говорил, собственно.

NikolaySivko 6 дек 2016 в 22:41

В таком подходе много вопросов/проблем:

платформа: zabbix не очень подходит для большого количества подробных метрик
карма VS деньги: помимо того, что нужно выложить какие-то наработки, это нужно поддерживать и развивать, если это не монетизировать, проект быстро загнется. Такой подход могут себе позволить как правило большие компании, которым не сложно потратить пару человеко-лет на проект ради кармы.

ky0 6 дек 2016 в 22:50

Можно поподробнее насчёт неподходящести заббикса — в чём она проявляется?

NikolaySivko 6 дек 2016 в 23:51

В zabbix достаточно сложно положить скажем 1000 метрик, из которых хочется показать 1 график с topN метрик + other за приемлемое время.

cru5ader 6 дек 2016 в 12:42

Мне нравится ваш принцип, если идет постоянный поток писем от мониторинга, который не читается. То проще выключить отправку по почте, поймал себя на этой мысли год назад, когда скопом ставил отметку прочитанное.
А как у вас происходит работа если допустим ночью разбудили несколько человек по sms, и допустим двое-трое начали чинить сервер? Ведь спросонья не всегда голова работает ясно) что надо зайти в Jita поставить отметку или есть какой-то чат в телеграмме допустим, где пишет человек что взялся за починку сервера?

NikolaySivko 6 дек 2016 в 13:03

Есть чат и есть в мониторинге кнопка Ack, которая останавливает нотификацию по алерту.

alexey-m-ukolov 6 дек 2016 в 19:54

Ну и главная новость — мы начали подготовку весеннего фестиваля «Российские интернет-технологии»

Как-то рановато вы начали готовиться — ещё с предыдущим не разобрались. Где видео докладов, которые прошли полгода назад? Что это за отношение к работе?

hagen1778 6 дек 2016 в 22:38

Думаю, стоит упомянуть так же anomaly detection. Штука весьма полезная и часто может подсказать вам о проблеме. В качестве примера можно привести алерт, который будет сравнивать частоту чтений из postgres. Если частота чтений в течении 5 минут меньше на 60% чем усредненное за последний час — это явный признак того, что с базой что-то случилось и ей пора уделить внимание.

r_j 12 дек 2016 в 15:33

Мы, конечно, жадные коммерсы, но сейчас продаём билеты по себестоимости — можно успеть до повышения цен

14000 руб., Карл!

c13 9 янв 2017 в 15:16

В мониторинге файловой подсистемы не указано измеряется ли io latency, но есть мнение, что именно оно обычно говорит о проблемах с хранилищем или файловой системой. Так ли это?

NikolaySivko 10 янв 2017 в 16:14

Да, latency снимается

Зарегистрируйтесь на Хабре, чтобы оставить комментарий